Предыдущие версии искусственного интеллекта всегда начинали свой путь с нулевыми знаниями об игре и за считаные часы становились гроссмейстерами. Теперь исследователи пытаются расширить сферу применения этой системы.

(Обновление от 6 декабря 2018 года: данная статья была впервые опубликована в феврале 2018 года на основе бумажной версии по материалам, опубликованным на научном препринте сайта arxiv.org. Статья была рецензирована и опубликована в журнале Science, и мы обновили ее, чтобы отразить самую свежую информацию.)

До недавнего времени машины — крушители чемпионов начинали обучение, основываясь на человеческом опыте. Чтобы обыграть Гарри Каспарова в шахматы в 1997 году, инженеры IBM использовали многовековой опыт для компьютера Deep Blue. Уже в 2016-м чемпион Google — AlphaGo от DeepMind — сокрушил Ли Седоля в старейшей настольной игре го после изучения миллионов разных стратегий из десятков тысяч игр, какие только смогло придумать человечество.

И вот теперь исследователи искусственного интеллекта пытаются осознать, как же их боты объединяют все знания людей. Текущая ситуация такова: беспокоиться пока рано.

В октябре 2017 года команда DeepMind опубликовала детали новой системы игры в го — AlphaGo: она больше не опирается на человеческий опыт. Вместо этого система начинает путь с освоения правил и тренируется сама с собой. Все происходит методом проб и ошибок. После каждой игры она пополняет базу знаний о том, что приводит к победе, а что нет. В конце концов AlphaGo Zero столкнулась лицом к лицу с уже существующей сверхчеловеческой версией — монстром AlphaGo, который и сокрушил Ли Седоля со счетом сто к одному.

Недавно команда создала нового члена семьи AlphaGo, его окрестили AlphaZero. В печатной версии Science исследователи DeepMind показали, что с нуля натренированная AlphaZero опередила AlphaGo Zero — другими словами, она переиграла бота, который побил бота, победившего всех лучших игроков го в мире. (Статья была впервые размещена на научном сайте препринтов arxiv.org в декабре 2017 года.) И когда ей предлагали правила шахмат или сёги (японской игры шахматного типа), AlphaZero моментально побеждала, вновь. Эксперты восхищались агрессивностью этой программы, ее бешеным типом поведения. В интервью ВВС датский гроссмейстер Питер Хейне Нильсен сказал, что это сравнимо с тем, как если бы высший разум приземлился на нашей планете и показал бы нам, как же они играют в шахматы.

В 2017 году мы могли наблюдать, как боты-самоучки появляются на самых разных платформах, таких как безлимитный покер и Dota 2 — это очень популярная многопользовательская онлайн-игра, в которой фэнтезийные герои сражаются за контроль над инопланетным миром.

Конечно же, компании охотно инвестируют деньги в такие амбициозные системы и подобные им, на их фоне меркнут даже полюбившиеся турниры по видеоиграм. Исследовательские команды, например DeepMind, надеются использовать схожие методы и для решения глобальных проблем и задач — например, создание сверхпроводников при комнатной температуре или сворачивание белка в прочные молекулы при разработке лекарств. И очевидно, что многие экспериментаторы мечтают о развитии общедоступного искусственного интеллекта.

Эта увлекательная цель пока что имеет лишь общие очертания: представляется, что машины научатся думать как человек и настолько масштабно, чтобы охватить все сферы нашего существования. Тем не менее все еще непонятно, насколько большой шаг мы сделаем благодаря современным системам и методам, хотя в их разработку вложены немалые средства.

Идеальные цели для неидеального мира

Есть одна важная особенность, общая для многих игр, включая шахматы и го. Она состоит в том, что игроки наблюдают все фигуры на поле и у каждого всегда есть некая «идеальная информация» о ходе игры. Какой бы сложной ни была игра, все, что вам нужно сделать, — это взглянуть на поле.

Но ситуации в реальности строятся иначе. Представьте себе, как вы просите компьютер поставить диагноз или провести деловые переговоры. Большинство реальных стратегических взаимодействий включают в себя скрытую информацию, и, по мнению Ноама Брауна, доктора в области компьютерных наук в Университете Карнеги — Меллон, многие ученые в сообществе ИИ пренебрегают этим фактом.

Покер, на котором специализируется Браун, предлагает иное: вы не можете просто так подсмотреть в карты своего оппонента. Однако и здесь машины, которые обучаются самостоятельно, теперь достигают сверхчеловеческого уровня. В январе 2017 года программа под названием Libratus, созданная Брауном и его консультантом Туомасом Сандхольмом, переиграла четырех профессиональных игроков в безлимитном техасском холдеме один на один, выиграв $ 1,7 миллиона в конце турнира, — это произошло на двадцатый день соревнований.

Еще более пугающей игрой с информацией такого типа является многопользовательская онлайн-видеоигра
StarCraft II. Игроки выбирают команду, строят армию и ведут войну, рассекая по научно-фантастическому ландшафту. Но этот пейзаж окутан туманом войны, где позволено смотреть только на те области, где находятся ваши солдаты или здания, а решение разведать, что же там у противника, чревато опасностью.

Это та единственная игра, которую ИИ пока не растоптал. Препятствия на пути к успеху включают в себя и огромное количество ходов в игре, которое часто исчисляется тысячами, и скорость, с которой они должны быть сделаны. Каждый игрок, будь то человек или машина, обязан побеспокоиться о своем будущем, которое меняется с каждым кликом.

На сегодняшний день ИИ не способен соперничать с сильнейшими на этой арене, но цель задана. В августе 2017 года DeepMind в партнерстве с Blizzard Entertainment — компанией, разработавшей StarCraft II, — выпустили инструменты, которые, по их словам, сделают игру доступной для исследователей ИИ. StarCraft II сводится в итоге к четко поставленной цели: уничтожить своего врага. Это то, что делает ее схожей с шахматами, го, покером, Dota 2 и практически любой другой игрой. В них вы можете одержать победу.

С точки зрения алгоритма проблемы могут быть с так называемой целевой функцией — это то, что должно быть четко определено. Когда AlphaZero играла в шахматы, цель была очевидна: проигрыш считается как минус один, ничья — ноль, а выигрыш — плюс один, и цель AlphaZero заключалась в том, чтобы максимально увеличить свой счет. Задача покерного бота тоже проста: выиграть побольше денег. В реальности же все не так очевидно. Например, автомобиль с автопилотом нуждается в более точно сформулированной целевой функции — скажем, незамедлительно доставить пассажира в нужное место, соблюдая все законы движения, и при этом оценить возможный ущерб для человека в опасных ситуациях.

Вот, например, Tэй — чат-бот в Twitter, выпущенный компанией Microsoft 23 марта 2016 года. Цель Tэй заключалась в том, чтобы привлекать подписчиков. Однако бот решил, что лучший способ наладить взаимодействие — извергать расистские оскорбления. Тэй был свернут в автономном режиме буквально через день.

Сильнейший враг

Тем не менее что-то остается неизменным: те методы и стратегии, которые используют сейчас лучшие игровые боты, были разработаны десятилетия назад. Стратегии часто основаны на обучении с подкреплением: вместо того чтобы контролировать машину, инженеры позволяют ей исследовать окружающую среду самой и учиться достигать целей методом проб и ошибок. Перед выпуском AlphaGo и ее последующих версий команда DeepMind получила свой первый важный результат в 2013 году, когда они использовали обучение с подкреплением для создания супербота: он освоил семь игр Atari 2600, три из которых — на экспертном уровне.

Никто не думает останавливаться. 5 февраля компания DeepMind выпустила IMPALA — систему искусственного интеллекта, которая может выучить 57 игр Atari 2600, а также освоить 30 уровней, построенных DeepMind, да еще и в трех измерениях. Там игрок выполняет простые задачи, такие как отпирание дверей или сбор грибов. Выяснилось, что IMPALA использует накопленные знания в решении разных задач, а это означает, что когда система проводит время за одной игрой, то она совершенствует навыки и в других играх.

Настольные и многопользовательские игры предусматривают еще более конкретный подход. И обучение с подкреплением может принимать форму самостоятельной игры, когда стратегическое превосходство получает уже создание алгоритма, когда система многократно сражается со своей максимально приближенной копией.

Идея не нова. В 1950-х годах инженер IBM Артур Самуэль уже создал программу для игры в шашки, которая обучалась частично на сопоставлении альфа- и бета-сторон. А в 1990-х Джеральд Тесауро, также из IBM, создал программу для игры в нарды, которая боролась сама с собой. Эта программа достигла экспертного уровня, разрабатывая неординарные, но эффективные стратегии.

Так в игре за игрой алгоритм сталкивается с равным себе противником. А это означает, что любые изменения в стратегии приводят к вариативным результатам, обеспечивая мгновенную обратную связь. Как отметил Илья Сатскевер, директор по исследованиям в OpenAI — некоммерческой организации, основанной вместе с Илоном Маском, когда вы чему-то учитесь и обнаруживаете что-то маленькое и важное, ваш оппонент немедленно использует это против вас.

В августе 2017 года организация выпустила бота Dota 2, управляющего персонажем Shadow Fiend — это своего рода демон-некромант, который убивает всех лучших игроков мира. Другой проект OpenAI натравливает людей друг на друга в матче сумо, где они в конечном итоге обучаются и как бороться, и как хитрить. В самостоятельной игре нет возможности отвлекаться: ты всегда должен совершенствоваться.

И все же старенькая система самостоятельной игры — это лишь один из компонентов обучения современных ботов, и они все еще нуждаются в создании такого алгоритма, который позволит перевести игровой опыт в нечто большее. Шахматы, го и видеоигры, такие как Dota 2, имеют в потенциале большее количество вариаций, чем Вселенная — атомов. Даже в течение многих жизней, потраченных на борьбу с собственной тенью на немых виртуальных аренах, машина не может встретиться с каждым сценарием развития событий, записать его в справочную таблицу, чтобы потом ею руководствоваться.

Чтобы оставаться на плаву в этом море возможностей, нужно все обобщить, уловить суть. IBM Deep Blue создала программу с помощью встроенной шахматной формулы. Вооруженный способностью оценивать незнакомую ситуацию на поле, бот мог разрабатывать стратегии и делать те ходы, которые увеличивали бы его шансы на победу. Однако в последние годы новая методика позволила попрощаться с заданной формулой: теперь глубокая сеть просто все поглощает.

Глубокая сеть — решение проблемы?

Глубокие нейронные сети, популярность которых выросла за последние несколько лет, построены из слоев искусственных нейронов, которые складываются, как блинчики. Когда нейроны одной прослойки уничтожаются, они отправляют сигналы на следующий уровень вверх, который, в свою очередь, посылает их на следующий и так далее.

Изменяя способ взаимодействия слоев, эти сети становятся фантастически умны и создают общую систему, пусть это объединение кажется абстрактным. Дайте им фразу на английском, и они научатся переводить ее на турецкий. Дайте им фотографии из приюта для животных, и они смогут определить, на каких из них изображены кошки. Наконец, покажите им игровую доску, и они смогут понять, какова вероятность выигрыша. Тем не менее вы должны сначала дать этим сетям практическую базу.

Вот почему самостоятельная игра и глубокие нейронные сети так хорошо сочетаются друг с другом. Самостоятельная игра создает множество вариантов игр, предоставляя глубоким нейронным сетям неограниченный запас данных, которые они должны изучить сами. В свою очередь, глубокие нейронные сети предлагают способ усвоить этот опыт и все паттерны, встречающиеся в самостоятельной игре. Но и тут есть подвох: чтобы системы самостоятельной игры могли выдавать полезные данные, им нужна реальность. Все эти игры и результаты были получены в условиях идеальной имитации мира. В то же время автомобилям с автопилотом трудно справляться с плохой погодой или велосипедистами. Также они не охватывают те неординарные ситуации, которые случаются в реальности, — скажем, когда птица летит прямо к камере автомобиля.

Для задач, которые трудно смоделировать, обучение с помощью самостоятельной игры не бесполезно. Существует огромная разница между реальной моделью среды и заданным аппаратом для ее оценки, особенно когда эта реальность столь многоаспектна. Но у исследователей ИИ есть возможность двигаться вперед.

Жизнь после игр

Трудно определить пик господства ИИ на игровом поле. Вы вольны выбирать: пусть это проигрыш Каспарова в шахматах или поражение Ли Седоля AlphaGo. Но еще одним вариантом может быть проигрыш Кена Дженнингса, легендарного чемпиона Jeopardy!, Уотсону из IBM в 2011 году. Уотсон смог разобраться в заковырках викторины и справиться с игрой слов. Двухдневный матч так и не был окончен.

«Я приветствую наших новых компьютерных повелителей», — написал Дженнингс под своим окончательным ответом.

Но сейчас, семь лет спустя, функционирование в реальном мире все еще является сложной задачей для ИИ. В сентябрьском отчете медицинской публикации Stat было установлено, что исследование и разработка персонализированных методов лечения рака, чем занимается потомок Уотсона в области онкологии, оказывается трудным делом. Как написал Бенджо, который сотрудничал с командой Уотсона, вопросы в Jeopardy! легче — понять медицинскую статью гораздо сложнее. Опять же, нужно много фундаментальных исследований.

Какими бы особенными ни были игры, есть еще несколько проблем нашей реальности, которые очень похожи. Исследователи из DeepMind отказались от интервью для этой статьи, сославшись на тот факт, что их работа в AlphaZero в настоящее время находится на экспертной оценке. Но команда предположила, что ее методы могут очень скоро помочь биомедицинским исследователям, которые хотели бы понять процесс сворачивания белка. Для этого им нужно выяснить, как различные аминокислоты, из которых состоит белок, изгибаются и складываются в маленький трехмерный механизм с функцией, которую определяет его форма. Сложность та же, что и с шахматами: химики достаточно хорошо знают правила для расчета конкретных сценариев, но возможных конфигураций по-прежнему столь много, что искать их все бесполезно. Но что, если сворачивание белка можно настроить как игру? На самом деле попытки уже были предприняты. С 2008 года сотни тысяч игроков испытывали Foldit — онлайн-игру, в которой пользователи оценивают прочность и качество структуры создаваемых белков. Машина может тренироваться таким же образом, пытаясь побить свой предыдущий лучший результат с помощью обучения с подкреплением.

Илья Сатскевер предполагает, что обучение с подкреплением и самостоятельная игра могут также помочь в освоении коммуникации. Это дало бы роботам, предназначенным для общения с людьми, возможность тренироваться, разговаривая сами с собой. А учитывая, что специализированное аппаратное обеспечение ИИ становится все мощнее и доступнее, у инженеров будет стимул ставить все новые задачи в виде игр. Сатскевер считает, что в будущем самостоятельная игра и другие способы использования огромной вычислительной мощности станут более значимыми.

Но если конечная цель машины состоит в том, чтобы иметь возможности, равные человеческим, даже у чемпиона-самоучки-универсала, такого как AlphaZero, может быть свой путь развития. Джош Тененбаум, ученый из Массачусетского технологического института, подчеркнул, что остается огромная пропасть между реальной деятельностью мышления, исследовательскими идеями и тем, что мы в настоящее время видим в ИИ. Такой тип мышления существует, но в основном в умах исследователей ИИ.

Многие другие ученые, осознавая тот ажиотаж, который окружает их область деятельности, предлагают свои собственные квалификаторы. Так, например, исследователь Google Франсуа Шоле не преувеличивает ценность игры для ИИ или наработок в целом. Как он говорит, люди вообще не очень хороши в играх, но простые на первый взгляд открытия действительно могут означать нечто большее.

Пояснение от 22 февраля 2018: более ранняя версия этой статьи подразумевала, что шахматная стратегия была запрограммирована в компьютер Deep Blue. Фактически инженеры запрограммированы в рамках шахматной стратегии, и машина проанализировала множество человеческих игр, чтобы прийти к своей конкретной стратегии. Статья была изменена, чтобы избежать нежелательных последствий.

Источник: Why Artificial Intelligence Like AlphaZero Has Trouble With the Real World