Модели компьютерного зрения, которые при тестировании точны в 97% случаев, не справляются с распознаванием объектов, когда их начинают применять в жизни. Это может создавать угрозы для жизни и здоровья людей, так как эти модели используют, например, в автомобилях с автоматическим управлением.
Многие модели обучались на датасете ImageNet, в котором собрано около 14 миллионов изображений из социальных сетей. Преимущество датасета — его размер, а недостаток — однообразие: большинство объектов на фотографиях сняты целиком, под прямым углом и в максимально привычном контексте — например, тарелки на кухне.
Создатели ObjectNet решили устранить этот перекос, поэтому в датасет вошли фотографии, сделанные фрилансерами, на которых объекты сняты с неожиданного ракурса или в беспорядочно захламленных комнатах. Когда ведущие модели компьютерного зрения протестировали на ObjectNet, их точность упала до 50-55%.
Исследователи задумались о том, что в архитектуру современных детекторов объектов еще не встроено понимание, как объекты существуют в реальном мире. Поэтому нужно разрабатывать более умные алгоритмы, которые будут знать, что все объекты на самом деле трехмерные, и их можно вращать и перемещать в новые контексты.
У ObjectNet есть еще одно существенное отличие: он не содержит обучающих изображений, тогда как большинство датасетов разделены на данные для обучения и данные для тестирования. Обучающие данные часто имеют сходства с тестовыми, что дает моделям фору при тестировании.
Если обучать и тестировать модель на одном и том же датасете, производительность и точность обычно сильно улучшается. Однако, когда исследователи все же позволили моделям тренироваться на половине данных ObjectNet, а затем протестировали их на оставшейся половине, улучшения были незначительными.
Это доказывает, что у моделей возникают сложности именно из-за необычного расположения объекта на фотографии или непривычной обстановки. Ведь даже наборы данных с миллионами изображений не могут показать каждый объект во всех его возможных положениях и контекстах, что усложняет моделям компьютерного зрения работу, когда они сталкиваются с этими объектами в реальной жизни.
Таким образом, цель разработчиков датасета ObjectNet — побудить исследователей на создание новых, революционных технологий и алгоритмов компьютерного зрения, которые смогут с высокой точностью распознавать объекты в любой обстановке и с любой стороны.
Полезные ссылки
- MIT News — This object-recognition dataset stumped the world’s best computer vision models
- Сайты проектов ObjectNet и ImageNet, где можно скачать данные датасеты
О том, как работают технологии компьютерного зрения, Системный Блокъ уже рассказывал в статьях: