Приложения для определения растений

Как нейросеть узнает растения и почему она ошибается

Автоматические определители живых организмов стоят на смартфонах миллионов любителей природы. Достаточно просто навести камеру на растение или животное, чтобы определить, что это. Разбираемся, как устроены такие приложения и что у них под капотом

Мы уже рассказывали о проекте iNaturalist — социальной сети для любителей природы, где каждый пользователь может загружать свои изображения, а эксперты определяют видовую принадлежность объекта. На данный момент на платформу загружено 10 880 718 фотонаблюдений растений, для которых эксперты определили видовую принадлежность.

На этой же платформе работает интерфейс автоматического распознавания видов. Фотографии, на которых растения уже определены, используются для обучения нейросетей, которые распознают виды.

В основе технологии распознавания объектов лежат механизмы компьютерного зрения, которые успешно применяются в разных областях — от машин-беспилотников до диагностики рака. Алгоритмы конкретно для iNaturalist разработаны в 2017 году и периодически обновляются. После того, как пользователь загружает фотографию, начинается ее анализ и сравнение полученных параметров с базой уже имеющихся фотографий.

Более 10 миллионов изображений — цифра внушительная и вроде бы достаточная для качественного обучения нейросети. Система по ряду параметров запоминает, какое фото к какой категории — к какому виду — относится. Однако, посмотрев на структуру этих данных поближе, мы увидим, что они крайне неоднородны. Есть широко распространенные виды с десятками тысяч фотографий со всего мира. Если на загруженном пользователем изображении широко распространенный вид, и в базе уже много его фотографий, то нейросеть с большей вероятностью его верно распознает.

А если вид редкий, да еще сфотографирован с необычного ракурса, то более вероятны ошибки со стороны системы. Есть огромный блок видов, для которых в базе не наберется и пяти фотографий. Причины могут быть разными: произрастание этих видов в труднодоступных местах, малая численность, сложность идентификации даже для специалистов. И по таким видам для обучения алгоритмов материала оказывается очень мало, ведь нейросеть — это не человек-эксперт. Она анализирует заданные параметры и имеет только тот опыт, который мы туда заложили.

Дополнительную сложность для алгоритмов дает фон, на котором сняты растения. Он бывает очень разным: это может быть и небо, и другие травы, и камни, и человеческие руки. Случаи, когда растение на фото почти сливается с другими травами, для распознавания особенно сложны. Многое зависит и от качества изображения: если все смазано и от цветка лишь кусок — такое растение даже опытный профессор не факт, что определит.

Так что ошибки в определениях говорят не о том, что мобильные приложения плохие, а о том, что по данному растению нейросеть еще недостаточно обучена.

Источники

История внедрения технологии компьютерного зрения на платформу
Van Horn G., Perona P. The devil is in the tails: Fine-grained classification in the wild //arXiv preprint arXiv:1709.01450. – 2017.
Nilsback M. E., Zisserman A. A visual vocabulary for flower classification //2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06). – IEEE, 2006. – Т. 2. – С. 1447-1454.
Van Horn G. et al. The inaturalist species classification and detection dataset //Proceedings of the IEEE conference on computer vision and pattern recognition. – 2018. – С. 8769-8778.

Автор: Ксения Дудова

Редактор: Анна Мурашова

Иллюстратор: Юля Данилова

Теги:by_mw, нейросети

Что такое рассуждающая языковая модель и как она работает

Прогресс больших языковых моделей через увеличение их размеров застопорился: их масштабирование уже почти не дает прироста качества. Выход ищут в новом подходе — рассуждающих языковых моделях. Рассказываем, как работают рассуждающие языковые модели, как они решают проблемы современных LLM и создают новые.

Михаил Ким

Как работают мультимодальные модели: от пикселей — к пониманию

Как работает поиск изображений по текстовым описаниям? Как это связано с генерацией изображений? Как языковые модели «понимают» не только текст, но и изображения и аудио? Рассказываем, как нейросети работают с разными типами данных одновременно.

Михаил Ким

Поповская шапка и провинциальный розен: угадаете ли вы растение по его старинному названию?

Как называли алоэ или шиповник травники XIII века или аптекари времен Петра Великого? Ученые из Европейского университета в Санкт-Петербурге создали базу данных PhytoLex, в которую внесли обозначения растений в ботанических, медицинских и этнографических источниках XI–XVIII веков. Подробно об этом проекте мы рассказали здесь. Предлагаем вам попробовать себя в роли историка ботаники: сможете ли вы угадать современные названия растений по их «паспортным данным» из прошлого?

Системный Блокъ

Зачем нужна этноботаническая база данных, или Что такое ухемоль

Ухемоль, лоландер, рудада — спорим, вы не слышали таких слов? Мы тоже, пока не начали составлять этноботаническую базу данных PhytoLex. Рассказываем, для чего используется эта база данных и что можно узнать с ее помощью: от этимологии слова до его эволюции сквозь века.

Кира Коваленко

Как нейросеть узнает растения и почему она ошибается

Источники

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Как нейросеть узнает растения и почему она ошибается

Источники

Читать по теме:

Что такое рассуждающая языковая модель и как она работает

Как работают мультимодальные модели: от пикселей — к пониманию

Поповская шапка и провинциальный розен: угадаете ли вы растение по его старинному названию?

Зачем нужна этноботаническая база данных, или Что такое ухемоль

О проекте

Контакты

СОЦСЕТИ

Теги

Темы