Алгоритмы искусственного интеллекта неплохо работают с текстами или картинками. А вот адекватное понимание машиной физической реальности до сих пор остается слабым местом. Разбираемся, как работают алгоритмы, которые умеют понимать и предсказывать кинетику предметов
Иллюстратор: Женя Родикова
Способность человека распознавать объекты и рассуждать об их поведении в различных физических ситуациях (падение, полет, качение) лежит в основе его когнитивного развития. Люди, даже младенцы, используя базовые представления о том, как устроен мир, могут объяснять, что уже случилось, предсказывать, что случится в дальнейшем, и предполагать, как события развернулись бы в других гипотетических ситуациях.
Чтобы повторить этот тривиальный для человеческого мозга интеллектуальный процесс, искусственному интеллекту потребовались годы обучения и тренировок. Но в конце прошлого года ученые из Массачусетского технологического института (MIT) представили модель, которая способна не просто прогнозировать чем закончится взаимодействие предметов, но и регистрировать «удивление», если объекты в симуляции делают что-то неожиданное.
Главная сложность в обучении искусственного интеллекта «интуитивной физике» заключается в том, что отвечающие за это сходные процессы в человеческом мозге еще до конца не объяснены. Известно, что уже младенцы обладают минимальными знаниями простых физических законов [1]. Они ожидают, что все предметы будут взаимодействовать на пространственно-временных принципах целостности (объекты движутся как связанные и ограниченные целые), непрерывности (объекты движутся по соединенным, смежным путям) и контакта (объекты не взаимодействуют на расстоянии). Частично эти ожидания наблюдаются даже у новорожденных без какого-либо зрительного опыта, то есть представления о базовых законах физики могут быть врожденными. Больше о качествах предметов и физических силах, влияющих на их поведение — например, масса и упругость, гравитация и трение, — человек узнает из активного взаимодействия с окружающим миром.
Лучшим в поле интуитивной физики является ADEPT («Approximate Derenderer, Extended Physics, and Tracking») — искусственный интеллект, созданный группой нейроученых из Массачусетского технологического института (MIT). В нем восприятие физической реальности разделено [2] на несколько этапов.
Сначала ADEPT извлекает кадры из видео и использует инверсную графику, чтобы собрать базовую информацию об объектах, изображенных на них: например, форму, положение в пространстве и скорость. Это приблизительное описание объекта затем передается его физическому 3D-движку — такие часто используют в фильмах, видеоиграх, компьютерной графике. Движок симулирует поведение физических систем, различных твердых тел или жидкостей и делает предположение о том, что произойдет с объектом в следующем кадре.
Затем машина исследует следующий кадр, еще раз собирает информацию об изображенных на нем предметах и сравнивает с тем, что предполагала на основе предыдущего кадра. Если предмет действовал согласно законам физики, различия в показаниях будут минимальные. Если предмет повел себя неестественно — ADEPT высчитывает вероятность такого несоответствия и регистрирует сигнал «удивления». Чем ниже вероятность — тем сильнее удивление.
Чтобы понять, насколько хорошо обучен ADEPT и насколько его уровень понимания базовой кинетики соответствует человеческому, исследователи провели эксперимент. Они создали несколько видеороликов по классическим сценариям, используемым в экспериментах с «обманом ожидания». Наняли 60 взрослых и предложили им посмотреть 64 видео: в одних показаны правдоподобные события, где объекты придерживаются базовых представлений о том, как устроен мир, в других они каким-то образом нарушают их. Например, шар закатывается за стену и, когда она падает, его там не оказывается. Затем участников попросили оценить, насколько они были удивлены в тот или иной момент видео по шкале от 1 до 100. Эти же видео показали модели. Их результаты сравнили.
В целом, мнение ADEPT о правдоподобности событий соответствовало мнению группы. Примечательно, что их результаты совпали и на тех видео, которые не показались людям удивительными, хотя, возможно, должны были. Например, когда объект, движущийся с определенной скоростью, исчезал за стеной и тут же появлялся с другого ее конца. Может быть, они посчитали, что он внезапно разогнался или телепортировался. Получается, люди и искусственный интеллект в большей или меньшей степени не были одинаково не уверены в таких неоднозначных событиях.
Поле применения искусственного интеллекта, обученного физике, бесконечно. Прежде всего создатели считают своей конечной целью создание моделей, которые будут полезны людям в условиях высокой неопределенности — например, во время экстремальных ситуаций вроде торнадо или землетрясений. Еще в этих исследованиях можно получить полезные сведения о когнитивном развитии человека или роботизированных системах зрения.
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…