Зомбоящик опасен для вашего (искусственного) интеллекта

Нейросеть научилась проходить компьютерные игры благодаря имитации «любопытства». Но когда в один из уровней добавили телевизор — алгоритм залип над его просмотром и остановился...

27.08.2018

Современные алгоритмы машинного обучения хорошо справляются с прохождением компьютерных игр. Обычно это делается при помощи «обучения с подкреплением»: система штрафуется за вредные действия (потеря очков/жизней) и награждается за полезные (сбор кристаллов/убийство врагов).

Однако на этот раз исследователи решили отказаться от таких явных стимулов. Команда из Open AI, Университета Беркли и Университета Эдинбурга обучила алгоритм проходить игры на одном только «любопытстве».

Как это работает?

Алгоритм играет в Марио, Space Invaders, Pong (пинг-понг для игровых автоматов от Atari) и прочие классические аркады/платформеры, а также проходит 3D-бродилки. При этом программа ничего не знает о том, насколько успешно она проходит игру. «Любопытство», которое заставляет алгоритм двигаться дальше, — это просто мера ошибки предсказания дальнейших событий. Проще говоря, в игре поощряются действия, приводящие к неожиданному результату.

И что получилось?

Система самостоятельно прошла 10 уровней в Марио, обучилась находить спрятанные объекты в лабиринте, а также отлично играла в пинг-понг не только с компьютером, но и с собственной копией. 3D-модель шагающего робота, снабженная только любопытством, начала ходить без всякого стимула и без картинок-мотиваторов! А ты так и не записался в качалку!

Круто, а при чем тут зомбоящик из заголовка?

В одном из лабиринтов исследователи повесили на стене телевизор. Он транслировал постоянно меняющиеся картинки, случайно переключая каналы в ответ на действия алгоритма. В итоге любопытная нейросеть зависала около телевизора и начинала его смотреть. «Внимание» алгоритма оказывалось полностью поглощено просмотром…

Подробнее о проекте вы можете прочитать здесь.

Автор: Даниил Скоринкин

Теги:by_dh_hse

Next Жарим стейк онлайн — с учеными из MIT »

Previous « Плейлист Дарвина. Как шум эволюционировал в музыку

Tags: by_dh_hse

27.08.2018

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026