Читать нас в Telegram
© unsplash.com

Современные алгоритмы машинного обучения хорошо справляются с прохождением компьютерных игр. Обычно это делается при помощи «обучения с подкреплением»: система штрафуется за вредные действия (потеря очков/жизней) и награждается за полезные (сбор кристаллов/убийство врагов).

Однако на этот раз исследователи решили отказаться от таких явных стимулов. Команда из Open AI, Университета Беркли и Университета Эдинбурга обучила алгоритм проходить игры на одном только «любопытстве».

Как это работает?

Алгоритм играет в Марио, Space Invaders, Pong (пинг-понг для игровых автоматов от Atari) и прочие классические аркады/платформеры, а также проходит 3D-бродилки. При этом программа ничего не знает о том, насколько успешно она проходит игру. «Любопытство», которое заставляет алгоритм двигаться дальше, — это просто мера ошибки предсказания дальнейших событий. Проще говоря, в игре поощряются действия, приводящие к неожиданному результату.

И что получилось?

Система самостоятельно прошла 10 уровней в Марио, обучилась находить спрятанные объекты в лабиринте, а также отлично играла в пинг-понг не только с компьютером, но и с собственной копией. 3D-модель шагающего робота, снабженная только любопытством, начала ходить без всякого стимула и без картинок-мотиваторов! А ты так и не записался в качалку!

Круто, а при чем тут зомбоящик из заголовка?

В одном из лабиринтов исследователи повесили на стене телевизор. Он транслировал постоянно меняющиеся картинки, случайно переключая каналы в ответ на действия алгоритма. В итоге любопытная нейросеть зависала около телевизора и начинала его смотреть. «Внимание» алгоритма оказывалось полностью поглощено просмотром…

Подробнее о проекте вы можете прочитать здесь.