Мы рассказывали о рождении чат-ботов — о Джозефе Вейценбауме и его Элизе. Перемещаемся в 90-е, и здесь на сцену выходит доктор Ричард Уоллес — автор языка разметки для искусственного интеллекта АIML и бота A.L.I.C.E (Artificial Linguistic Internet Computer Entity).
Простое гениально
Вспомним Элизу. Она первая создала иллюзию человеческой беседы. Но из-за примитивности программы даже сам Вейценбаум не воспринимал ее всерьез. Уоллес же увидел в этой простоте преимущество.
Он долго увлекался движением минимализма в робототехнике — созданием машин, которые при простом устройстве выполняют сложные функции. Это определило суть его будущего чат-бота. Уоллес решил усовершенствовать Элизу, расширить ее базу знаний, наделить личностью. В ноябре 1995 родилась Алиса (A.L.I.C.E) и вскоре заговорила с пользователями.
Меньше значит больше
Уоллес изучил диалоги и обратил внимание на то, что люди часто задавали одни и те же вопросы, а почти каждое высказывание начиналось с одного из 2000 базовых слов. Он сделал вывод, что чаты Алисы подчинялись закону Ципфа: если расставить слова в порядке частотности их употребления в языке, то частотность эта будет обратно пропорциональна их порядковому номеру, то есть второе слово употребляется в два раза реже, чем первое, третье — в три раза реже, чем первое, и т.д. Выглядит это примерно так:
По закону Ципфа выходит, что короткий список из самых частотных слов языка составляет большую часть того, что мы говорим и пишем. Уоллес пошел дальше и предположил, что все человеческие разговоры состоят из нескольких тысяч выражений. Исследователи искусственного интеллекта работают над самообучающимися нейронными сетями или программами по обработке естественной речи, но Уоллес считал, что они никак не могут воссоздать настоящую человеческую беседу не потому, что она сложна, а потому, что она так проста.
Он решил, что если учить Алису новому ответу каждый раз, когда чей-то вопрос будет вводить ее в тупик, вскоре она будет знать все распространенные выражения, и даже некоторые менее частотные. Для начала он остановился на 40000 ответов (Элиза знала около 200), которые, по его мнению, отвечали бы на 95% вопросов.
Искусственный интеллект говорит на AIML
Всю эту словесную массу нужно было организовать. Уоллес занялся созданием языка разметки для искусственного интеллекта — AIML (Artificial Intelligence Markup Language) на основе категорий, моделей и шаблонов. Сообщение собеседника распознается как подходящее под одну из моделей (pattern), а ответ составляется по шаблону (template), и все это входит в категорию.
Уоллес хотел, чтобы его программой и языком пользовалось как можно больше людей, поэтому сделал AIML максимально простым, так, чтобы все, кто знаком с HTML (язык разметки в Интернете), могли научиться и его языку.
Мечта доктора сбылась: Алиса стала популярной, когда в 2000 году выиграла премию Лёбнера как самый человекоподобный бот. Она обошла чат-боты многих крупных корпораций и проекты хорошо финансируемых университетов. Уоллес выложил в свободный доступ протоколы AIML и саму программу, и тогда обучением Алисы занялись тысячи пользователей по всему миру. Результат — Алиса стала победителем премии Лёбнера еще дважды, в 2001 и в 2004.
В 2002 году Уоллес совместно с Franz, Inc. создал ресурс Pandorabots. Сейчас это крупный проект для создания и поддержки чат-ботов, виртуальных ассистентов:
Подробнее о законе Ципфа и интересных выводах из него: