Второе поколение говорящих машин

Мы рассказывали о рождении чат-ботов — о Джозефе Вейценбауме и его Элизе. Перемещаемся в 90-е, и здесь на сцену выходит доктор Ричард Уоллес — автор языка разметки для искусственного интеллекта АIML и бота A.L.I.C.E (Artificial Linguistic Internet Computer Entity).

Простое гениально

Вспомним Элизу. Она первая создала иллюзию человеческой беседы. Но из-за примитивности программы даже сам Вейценбаум не воспринимал ее всерьез. Уоллес же увидел в этой простоте преимущество.

Он долго увлекался движением минимализма в робототехнике — созданием машин, которые при простом устройстве выполняют сложные функции. Это определило суть его будущего чат-бота. Уоллес решил усовершенствовать Элизу, расширить ее базу знаний, наделить личностью. В ноябре 1995 родилась Алиса (A.L.I.C.E) и вскоре заговорила с пользователями.

Меньше значит больше

Уоллес изучил диалоги и обратил внимание на то, что люди часто задавали одни и те же вопросы, а почти каждое высказывание начиналось с одного из 2000 базовых слов. Он сделал вывод, что чаты Алисы подчинялись закону Ципфа: если расставить слова в порядке частотности их употребления в языке, то частотность эта будет обратно пропорциональна их порядковому номеру, то есть второе слово употребляется в два раза реже, чем первое, третье — в три раза реже, чем первое, и т.д. Выглядит это примерно так:

По закону Ципфа выходит, что короткий список из самых частотных слов языка составляет большую часть того, что мы говорим и пишем. Уоллес пошел дальше и предположил, что все человеческие разговоры состоят из нескольких тысяч выражений. Исследователи искусственного интеллекта работают над самообучающимися нейронными сетями или программами по обработке естественной речи, но Уоллес считал, что они никак не могут воссоздать настоящую человеческую беседу не потому, что она сложна, а потому, что она так проста.

Он решил, что если учить Алису новому ответу каждый раз, когда чей-то вопрос будет вводить ее в тупик, вскоре она будет знать все распространенные выражения, и даже некоторые менее частотные. Для начала он остановился на 40000 ответов (Элиза знала около 200), которые, по его мнению, отвечали бы на 95% вопросов.

Искусственный интеллект говорит на AIML

Всю эту словесную массу нужно было организовать. Уоллес занялся созданием языка разметки для искусственного интеллекта — AIML (Artificial Intelligence Markup Language) на основе категорий, моделей и шаблонов. Сообщение собеседника распознается как подходящее под одну из моделей (pattern), а ответ составляется по шаблону (template), и все это входит в категорию.

Уоллес хотел, чтобы его программой и языком пользовалось как можно больше людей, поэтому сделал AIML максимально простым, так, чтобы все, кто знаком с HTML (язык разметки в Интернете), могли научиться и его языку.

Мечта доктора сбылась: Алиса стала популярной, когда в 2000 году выиграла премию Лёбнера как самый человекоподобный бот. Она обошла чат-боты многих крупных корпораций и проекты хорошо финансируемых университетов. Уоллес выложил в свободный доступ протоколы AIML и саму программу, и тогда обучением Алисы занялись тысячи пользователей по всему миру. Результат — Алиса стала победителем премии Лёбнера еще дважды, в 2001 и в 2004.

В 2002 году Уоллес совместно с Franz, Inc. создал ресурс Pandorabots. Сейчас это крупный проект для создания и поддержки чат-ботов, виртуальных ассистентов:

Подробнее о законе Ципфа и интересных выводах из него:

Автор: Вусале Агасиева

Теги:закон Ципфа, искусственный интеллект, История искусственного интеллекта, разметка, чат-боты, язык

Как работает большая языковая модель: перцептроны в черном ящике

Несмотря на стремительное развитие больших языковых моделей, исследователи до сих пор плохо понимают, как и почему нейросети выдают тот или иной ответ. Однако изучение этих проблем находится на переднем крае компьютерных наук. В нашем новом материале рассказываем о механизмах работы языковых моделей. В первой части мы объясняем, почему нейросети работают, как «чёрные коробки», что такое интерпретируемость в контексте машинного обучения и как компьютеры моделируют работу нейрона.

Михаил Ким

Sora: как работает модель для генерации видео по тексту

Недавно компания OpenAI, создавшая модели GPT и сервис ChatGPT, выпустила новую модель Sora, которая генерирует видео по текстовому описанию. Такие модели были и раньше, но здесь произошёл качественный скачок. Во-первых, Sora умеет генерировать реалистичные видео в высоком разрешении (вплоть до FullHD), во-вторых, объекты в видео консистентны в течение всего времени. Рассказываем, как работает Sora, какие у неё есть ограничения и неожиданные особенности.

Михаил Ким

Второе поколение говорящих машин

Простое гениально

Меньше значит больше

Искусственный интеллект говорит на AIML

О проекте

СОЦСЕТИ

Рассылка

Теги

Темы

Второе поколение говорящих машин

Простое гениально

Меньше значит больше

Искусственный интеллект говорит на AIML

Читать по теме:

Как работает большая языковая модель: перцептроны в черном ящике

Sora: как работает модель для генерации видео по тексту

О проекте

СОЦСЕТИ

Рассылка

Теги

Темы