Нейросеть научилась проходить компьютерные игры благодаря имитации «любопытства». Но когда в один из уровней добавили телевизор — алгоритм залип над его просмотром и остановился...
© unsplash.com
Современные алгоритмы машинного обучения хорошо справляются с прохождением компьютерных игр. Обычно это делается при помощи «обучения с подкреплением»: система штрафуется за вредные действия (потеря очков/жизней) и награждается за полезные (сбор кристаллов/убийство врагов).
Однако на этот раз исследователи решили отказаться от таких явных стимулов. Команда из Open AI, Университета Беркли и Университета Эдинбурга обучила алгоритм проходить игры на одном только «любопытстве».
Алгоритм играет в Марио, Space Invaders, Pong (пинг-понг для игровых автоматов от Atari) и прочие классические аркады/платформеры, а также проходит 3D-бродилки. При этом программа ничего не знает о том, насколько успешно она проходит игру. «Любопытство», которое заставляет алгоритм двигаться дальше, — это просто мера ошибки предсказания дальнейших событий. Проще говоря, в игре поощряются действия, приводящие к неожиданному результату.
Система самостоятельно прошла 10 уровней в Марио, обучилась находить спрятанные объекты в лабиринте, а также отлично играла в пинг-понг не только с компьютером, но и с собственной копией. 3D-модель шагающего робота, снабженная только любопытством, начала ходить без всякого стимула и без картинок-мотиваторов! А ты так и не записался в качалку!
В одном из лабиринтов исследователи повесили на стене телевизор. Он транслировал постоянно меняющиеся картинки, случайно переключая каналы в ответ на действия алгоритма. В итоге любопытная нейросеть зависала около телевизора и начинала его смотреть. «Внимание» алгоритма оказывалось полностью поглощено просмотром…
Подробнее о проекте вы можете прочитать здесь.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…