Читать нас в Telegram
Иллюстрация: Женя Родикова

Диалоговые системы — везде и повсюду. Мы взаимодействуем с ними, например, когда бронируем столик в кафе, пытаемся достучаться до поддержки по телефону, записываемся на приём к врачу. С годами чат-боты всё больше походят на людей, приобретают голос, а эмоциональный искусственный интеллект уже стал реальностью. Как ни странно общаться с роботом поначалу, нельзя не признать, что виртуальные помощники приносят пользу как бизнесу, так и обычным пользователям.

О диалоговых системах

Дизайн диалоговых интерфейсов (англ. Conversation Design) — это целая индустрия создания систем, имитирующих человеческое общение. Чем более «человечен» разговор, тем меньше пользователю нужно учиться пользоваться диалоговым интерфейсом.

Одна из основных задач диалоговых дизайнеров — сделать общение с ботом как можно более естественным, чтобы пользователь прикладывал минимум усилий для получения нужного ответа. Разговор с машиной, как и любой пользовательский опыт, должен быть эффективным и практически не трудозатратным.

Диалоговые системы по своей сути мультимодальны: они понимают и устную, и письменную речь. Огромное преимущество голосового помощника «Алиса» от Яндекса в том, что она может включить свет, поставить будильник или включить ваш любимый плейлист всего лишь по одной голосовой команде. Но система, которая ориентируется только на голос, может поставить человека в неловкую ситуацию, как героев знаменитого скетча, застрявших в лифте. Поэтому виджет на сайте, через который вы записываетесь к врачу, попросит вас ввести фамилию текстом — для упрощения распознавания.

То, насколько бот «человечен», всегда будет зависеть от доступных технологий, ведь и синтез речи когда-то давно казался заоблачной целью.

История

Технологии, с помощью которых создаются вездесущие чат-боты, существуют десятилетиями. Кажется невероятным, что первые диалоговые системы существовали ещё в 1960-ых, хотя они, конечно, сильно изменились с того времени. Постепенно чат-боты научились говорить, генерировать ответы, приобрели голос, а некоторые из них — даже внешний облик (например, виртуальный 3D-аватар), всё больше приближаясь к естественному общению.

Краткий таймлайн достижений в речевых технологиях. Источник

1. Audrey: первая слушающая машина

Audrey, разработанная американской корпорацией Bell Labs в 1952 году, была невероятным достижением для своего времени. Это был первый голосовой интерфейс, который распознавал не только говорящего человека, но и слова, которые он произносит! Правда, словарь был очень ограниченным: система могла распознавать только цифры от нуля до девяти. Что касается людей, то каждый новый голос сбивал машину с толку, и распознавание заходило в тупик.

Чтобы машина правильно считывала цифры из речи, между каждым словом должна была быть пауза примерно полсекунды, поэтому Audrey работала очень медленно; но превратить голос в текст в 1952 году больше не мог никто — и за это мы очень признательны Audrey.

2. ELIZA: первая отвечающая машина

Ни один разговор про чат-боты не обходится без упоминания Элизы, «родившейся» в 1960-ых гг. в Массачусетском технологическом институте. Элиза была первым чат-ботом по своей сути и в ответ на текстовое сообщение задавала вопросы из заранее составленного списка. Элиза была призвана исполнять для пользователя роль психотерапевта (действительно амбициозная цель для диалогового дизайнера в 60-ые годы!). 

Иронично, что создатель Элизы не возлагал особых надежд на своего чат-бота и лишь стремился показать, насколько поверхностным будет общение человека и машины. И хотя Элиза никогда не задумывалась как серьезный продукт, соревнующийся с настоящими специалистами, многие люди чувствовали эмоциональную связь с чат-ботом, хотя в исторических масштабах до эмпатичных диалоговых систем было ещё очень и очень далеко.

3. HARPY: машина распознаёт речь

В 1978 году в американском университете Карнеги — Меллона была разработана HARPY — машина, которая действительно умела слушать людей. В отличие от Audrey, словарь HARPY насчитывал более 1000 слов — огромный скачок вперёд для голосовых интерфейсов! 

Более того, HARPY больше не приходилось переводить дух после каждого слова пользователя, и распознавание речи происходило потоком, без секундных пауз между словами. Это означало, что робот наконец-то мог понимать не отдельные слова, а целые предложения. Так машина научилась распознавать связную речь человека.

4. ALICE: машина учится понимать

Появившаяся на свет в 1995 году ALICE (Artificial Linguistic Internet Computer Entity) стала первым чат-ботом, который стал обрабатывать естественную речь. Авторы ALICE не только вдохновились Элизой, но и учли её недостатки. Так система научилась делать логические выводы из текста пользователя, учитывать грамматику предложений и контекст предыдущего разговора. Теперь ответы чат-бота стали опираться не на случайный выбор из заготовленного списка, а на суть высказываний говорящего.

Однако, каким бы прорывом для своего времени ни была ALICE, диалоговым системам было ещё далеко до имитирования человека и прохождения теста Тьюринга. Способности ALICE можно оценить и сейчас: она дожила до нашего времени и с ней можно поболтать, правда, только на английском.

5. Siri и другие: собеседники, которые всегда с тобой

2011 год разделил Conversation Design на до и после. Это год рождения Siri, в которой разработчики Apple соединили голосовые команды с чат-бот-системой. Впервые стало возможно пользоваться iOS-системой с помощью простых голосовых команд и без лишний усилий.

Siri стала первым виртуальным ассистентом, встроенным в смартфон, который можно взять с собой везде. Список возможностей Siri для своего времени был действительно внушительный:

  • найти ответ на простой вопрос в Интернете,
  • произвести математические вычисления,
  • начать звонок,
  • отправить сообщение или создать черновик,
  • поставить напоминание, будильник или добавить встречу в календарь,
  • подсказать дорогу с помощью карт,
  • и многое другое.

Разработчики Apple активно выпускают дополнения для Siri, и теперь виртуальный ассистент становится частью Apple Intelligence — нового продукта, основанного на генеративном AI. Вопросы пользователя Siri может напрямую передавать ChatGPT и возвращать сгенерированный ответ. У Siri появляется текстовый интерфейс, она лучше запоминает контекст диалогов и становится всё более интегрированной в операционную систему — список возможностей виртуального ассистента только растёт.

Siri вошла в число виртуальных ассистентов и чат-ботов, которые невозможно представить без работы языковых моделей. Задачи таких ассистентов могут быть очень разными. Так мобильное приложение Gemini упрощает работу с Google-инструментами посредством и текстовых, и голосовых команд, а приложение Replika призвано создать виртуального друга для пользователя, обучающегося на диалогах с человеком в реальном времени.

Когда же чат-боты заменят людей?

Казалось бы, на этот вопрос можно дать очень короткий ответ: мы вряд ли увидим это очень скоро.

Целыми десятилетиями диалоговые системы учились простейшим человеческим навыкам. В 1952 году Audrey научилась слушать людей, и только через 25 с лишним лет её потомок научился слушать связную речь. Элиза, которая научилась отвечать на текстовые сообщения пользователя, была одним из главных достижений диалогового дизайна, пока новое поколение чат-ботов не научилось учитывать контекст разговора. И даже Siri с её умелым распознаванием голосовых команд всё ещё вынуждает пользователей подстраиваться под себя, что вызывает раздражение, которое хорошо видно в жалобах на сайте.

Исторически многие диалоговые системы говорят только на английском. Сколько бы Apple и другие крупные корпорации ни работали над переводами и локализациями, малоресурсные языки остаются малоресурсными, и миллионы людей, для которых такие языки родные, не могут по достоинству оценить работу чат-ботов.

Однако мы находимся на важном пороге, когда создатели чат-ботов прибегают к помощи больших языковых моделей и лишь подливают масла в огонь дискуссий об использовании искусственного интеллекта. Нам остаётся лишь следить за развитием событий — быть может, мы даже не заметим, как исчезнет грань между людьми и говорящими машинами.

Источники

  1. Shimokobe T. The Evolution of Conversation Design: Chatbots, Voice User Interfaces, and Google Duplex [Электронный ресурс] // Medium. 2019. URL: https://medium.com/@takashimokobe/the-evolution-of-conversation-design-chatbots-voice-user-interfaces-and-google-duplex-815d7bee2233 (дата обращения: 12.12.2024).
  2. Malik A. How Apple Intelligence changes the way you use Siri on your iPhone [Электронный ресурс] // TechCrunch. 2024. URL: https://techcrunch.com/2024/10/28/how-apple-intelligence-is-changing-the-way-you-use-siri-on-your-iphone/ (дата обращения: 10.01.2025).
  3. Heater B. Apple Intelligence is the company’s new generative AI offering [Электронный ресурс] // TechCrunch. 2024. URL: https://techcrunch.com/2024/06/10/apple-intelligence-is-the-companys-new-generative-ai-offering/ (дата обращения: 10.01.2025).