Современные алгоритмы машинного обучения хорошо справляются с прохождением компьютерных игр. Обычно это делается при помощи «обучения с подкреплением»: система штрафуется за вредные действия (потеря очков/жизней) и награждается за полезные (сбор кристаллов/убийство врагов).
Однако на этот раз исследователи решили отказаться от таких явных стимулов. Команда из Open AI, Университета Беркли и Университета Эдинбурга обучила алгоритм проходить игры на одном только «любопытстве».
Как это работает?
Алгоритм играет в Марио, Space Invaders, Pong (пинг-понг для игровых автоматов от Atari) и прочие классические аркады/платформеры, а также проходит 3D-бродилки. При этом программа ничего не знает о том, насколько успешно она проходит игру. «Любопытство», которое заставляет алгоритм двигаться дальше, — это просто мера ошибки предсказания дальнейших событий. Проще говоря, в игре поощряются действия, приводящие к неожиданному результату.
И что получилось?
Система самостоятельно прошла 10 уровней в Марио, обучилась находить спрятанные объекты в лабиринте, а также отлично играла в пинг-понг не только с компьютером, но и с собственной копией. 3D-модель шагающего робота, снабженная только любопытством, начала ходить без всякого стимула и без картинок-мотиваторов! А ты так и не записался в качалку!
Круто, а при чем тут зомбоящик из заголовка?
В одном из лабиринтов исследователи повесили на стене телевизор. Он транслировал постоянно меняющиеся картинки, случайно переключая каналы в ответ на действия алгоритма. В итоге любопытная нейросеть зависала около телевизора и начинала его смотреть. «Внимание» алгоритма оказывалось полностью поглощено просмотром…
Подробнее о проекте вы можете прочитать здесь.