Как нейросеть узнает растения и почему она ошибается

Автоматические определители живых организмов стоят на смартфонах миллионов любителей природы. Достаточно просто навести камеру на растение или животное, чтобы определить, что это. Разбираемся, как устроены такие приложения и что у них под капотом

06.10.2020

Мы уже рассказывали о проекте iNaturalist — социальной сети для любителей природы, где каждый пользователь может загружать свои изображения, а эксперты определяют видовую принадлежность объекта. На данный момент на платформу загружено 10 880 718 фотонаблюдений растений, для которых эксперты определили видовую принадлежность.

На этой же платформе работает интерфейс автоматического распознавания видов. Фотографии, на которых растения уже определены, используются для обучения нейросетей, которые распознают виды.

В основе технологии распознавания объектов лежат механизмы компьютерного зрения, которые успешно применяются в разных областях — от машин-беспилотников до диагностики рака. Алгоритмы конкретно для iNaturalist разработаны в 2017 году и периодически обновляются. После того, как пользователь загружает фотографию, начинается ее анализ и сравнение полученных параметров с базой уже имеющихся фотографий.

Более 10 миллионов изображений — цифра внушительная и вроде бы достаточная для качественного обучения нейросети. Система по ряду параметров запоминает, какое фото к какой категории — к какому виду — относится. Однако, посмотрев на структуру этих данных поближе, мы увидим, что они крайне неоднородны. Есть широко распространенные виды с десятками тысяч фотографий со всего мира. Если на загруженном пользователем изображении широко распространенный вид, и в базе уже много его фотографий, то нейросеть с большей вероятностью его верно распознает.

А если вид редкий, да еще сфотографирован с необычного ракурса, то более вероятны ошибки со стороны системы. Есть огромный блок видов, для которых в базе не наберется и пяти фотографий. Причины могут быть разными: произрастание этих видов в труднодоступных местах, малая численность, сложность идентификации даже для специалистов. И по таким видам для обучения алгоритмов материала оказывается очень мало, ведь нейросеть — это не человек-эксперт. Она анализирует заданные параметры и имеет только тот опыт, который мы туда заложили.

Дополнительную сложность для алгоритмов дает фон, на котором сняты растения. Он бывает очень разным: это может быть и небо, и другие травы, и камни, и человеческие руки. Случаи, когда растение на фото почти сливается с другими травами, для распознавания особенно сложны. Многое зависит и от качества изображения: если все смазано и от цветка лишь кусок — такое растение даже опытный профессор не факт, что определит.

Так что ошибки в определениях говорят не о том, что мобильные приложения плохие, а о том, что по данному растению нейросеть еще недостаточно обучена.

Источники

История внедрения технологии компьютерного зрения на платформу
Van Horn G., Perona P. The devil is in the tails: Fine-grained classification in the wild //arXiv preprint arXiv:1709.01450. – 2017.
Nilsback M. E., Zisserman A. A visual vocabulary for flower classification //2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06). – IEEE, 2006. – Т. 2. – С. 1447-1454.
Van Horn G. et al. The inaturalist species classification and detection dataset //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2018. – С. 8769-8778.

Автор: Ксения Дудова

Редактор: Анна Мурашова

Иллюстратор: Юля Данилова

Теги:by_mw, нейросети

Next Мальчики - программисты, девочки - балерины: гендерное неравенство в образовании и науке »

Previous « Люди-звери и антропоморфные животные в исполнении нейросетей

Tags: by_mwнейросети

06.10.2020

В России принят первый закон об ИИ

Документ вводит юридическое определение искусственного интеллекта, а также суверенной и национальной языковых моделей. Им придется проходить проверку на соответствие традиционным…

27.07.2026

Филология

Муза с перфокартами: как компьютеры учились писать стихи за полвека до нейросетей

Генеративная поэзия появилась задолго до ChatGPT. Компьютеры генерируют стихи уже больше 60 лет, а сама мечта заставить машину рифмовать —…

24.07.2026

MLOps для работы с текстом: принципы и минимальный набор инструментов

Как специалисты по машинному обучению наводят порядок при работе с большими корпусами? Что нужно сделать, чтобы эксперимент был воспроизводимым, качество…

20.07.2026

Как нейросеть узнает растения и почему она ошибается

Источники

Recent Posts

В России принят первый закон об ИИ

Муза с перфокартами: как компьютеры учились писать стихи за полвека до нейросетей

MLOps для работы с текстом: принципы и минимальный набор инструментов