Читать нас в Telegram
Иллюстратор: Женя Родикова

Способность человека распознавать объекты и рассуждать об их поведении в различных физических ситуациях (падение, полет, качение) лежит в основе его когнитивного развития. Люди, даже младенцы, используя базовые представления о том, как устроен мир, могут объяснять, что уже случилось, предсказывать, что случится в дальнейшем, и предполагать, как события развернулись бы в других гипотетических ситуациях.

Чтобы повторить этот тривиальный для человеческого мозга интеллектуальный процесс, искусственному интеллекту потребовались годы обучения и тренировок. Но в конце прошлого года ученые из Массачусетского технологического института (MIT) представили модель, которая способна не просто прогнозировать чем закончится взаимодействие предметов, но и регистрировать «удивление», если объекты в симуляции делают что-то неожиданное.

Главная сложность в обучении искусственного интеллекта «интуитивной физике» заключается в том, что отвечающие за это сходные процессы в человеческом мозге еще до конца не объяснены. Известно, что уже младенцы обладают минимальными знаниями простых физических законов [1]. Они ожидают, что все предметы будут взаимодействовать на пространственно-временных принципах целостности (объекты движутся как связанные и ограниченные целые), непрерывности (объекты движутся по соединенным, смежным путям) и контакта (объекты не взаимодействуют на расстоянии). Частично эти ожидания наблюдаются даже у новорожденных без какого-либо зрительного опыта, то есть представления о базовых законах физики могут быть врожденными. Больше о качествах предметов и физических силах, влияющих на их поведение — например, масса и упругость, гравитация и трение, — человек узнает из активного взаимодействия с окружающим миром.

Лучшим в поле интуитивной физики является ADEPT («Approximate Derenderer, Extended Physics, and Tracking») — искусственный интеллект, созданный группой нейроученых из Массачусетского технологического института (MIT). В нем восприятие физической реальности разделено [2] на несколько этапов.

Сначала ADEPT извлекает кадры из видео и использует инверсную графику, чтобы собрать базовую информацию об объектах, изображенных на них: например, форму, положение в пространстве и скорость. Это приблизительное описание объекта затем передается его физическому 3D-движку — такие часто используют в фильмах, видеоиграх, компьютерной графике. Движок симулирует поведение физических систем, различных твердых тел или жидкостей и делает предположение о том, что произойдет с объектом в следующем кадре.

Затем машина исследует следующий кадр, еще раз собирает информацию об изображенных на нем предметах и сравнивает с тем, что предполагала на основе предыдущего кадра. Если предмет действовал согласно законам физики, различия в показаниях будут минимальные. Если предмет повел себя неестественно — ADEPT высчитывает вероятность такого несоответствия и регистрирует сигнал «удивления». Чем ниже вероятность — тем сильнее удивление.

Чтобы понять, насколько хорошо обучен ADEPT и насколько его уровень понимания базовой кинетики соответствует человеческому, исследователи провели эксперимент. Они создали несколько видеороликов по классическим сценариям, используемым в экспериментах с «обманом ожидания». Наняли 60 взрослых и предложили им посмотреть 64 видео: в одних показаны правдоподобные события, где объекты придерживаются базовых представлений о том, как устроен мир, в других они каким-то образом нарушают их. Например, шар закатывается за стену и, когда она падает, его там не оказывается. Затем участников попросили оценить, насколько они были удивлены в тот или иной момент видео по шкале от 1 до 100. Эти же видео показали модели. Их результаты сравнили.

Диаграммы различных сценариев видео, использованных в эксперименте. Черные стрелки показывают физически правдоподобные ожидание, красные пунктирные — нарушающие физические ожидания [2]

В целом, мнение ADEPT о правдоподобности событий соответствовало мнению группы. Примечательно, что их результаты совпали и на тех видео, которые не показались людям удивительными, хотя, возможно, должны были. Например, когда объект, движущийся с определенной скоростью, исчезал за стеной и тут же появлялся с другого ее конца. Может быть, они посчитали, что он внезапно разогнался или телепортировался. Получается, люди и искусственный интеллект в большей или меньшей степени не были одинаково не уверены в таких неоднозначных событиях.

Поле применения искусственного интеллекта, обученного физике, бесконечно. Прежде всего создатели считают своей конечной целью создание моделей, которые будут полезны людям в условиях высокой неопределенности — например, во время экстремальных ситуаций вроде торнадо или землетрясений. Еще в этих исследованиях можно получить полезные сведения о когнитивном развитии человека или роботизированных системах зрения.

Источники

  1. Elizabeth S Spelke and Katherine D Kinzler. Core knowledge. Dev. Psychol., 10(1):89–96, 2007
    Core knowledge
  2. Jiajun Wu, Elizabeth S. Spelke, Joshua B. Tenenbaum, Tomer D. Ullman. Modeling Expectation Violation in Intuitive Physics with Coarse Probabilistic Object Representations. NeurIPS 2019. Modeling Expectation Violation in Intuitive Physics with Coarse Probabilistic Object Representations