Земля ему пуховик. Как работает Т9?

Т9

Технологии интеллектуального (предиктивного) ввода текста стали развиваться задолго до первых мобильных устройств. В 50-е годы XX века человек по имени Чжан Цзицзинь создал систему ассоциативных кластеров текста, чтобы облегчить себе работу. Он был наборщиком текста на печатных машинках, и со своей системой побил рекорд скорости.

Идея предиктивного ввода текста на клавиатуре мобильного телефона возникла в 70х. В 1988 году была впервые запатентована полнофункциональная текстовая система — она предназначалась для общения с глухими людьми. Современный предиктивный ввод текста начался с Т9, то есть с «Text on 9 keys» («набор текста на девяти кнопках»). Не так давно в мире не было мобильных телефонов с тачскрином или обычной qwerty клавиатурой, поэтому буквы алфавита располагались по несколько штук на одной клавише. «Интеллектуальность» ввода сообщения заключалась в том, что человеку не нужно было нажимать одну и ту же клавишу много раз для выбора одной из 3-4 букв , — достаточно пройти по клавишам с необходимым словом. Далее технология T9, проанализировав слова из предоставленных букв по встроенному словарю, предлагала варианты.

Изначально такие алгоритмы разрабатывались, чтобы облегчить жизнь людям с ограниченными возможностями. Затем — чтобы помочь людям определенных профессий, например, химикам и биологам, которым приходится постоянно печатать очень длинные слова. И лишь потом технология вышла в массы.

Но у T9 изначально были недостатки. Самый очевидный —невнимание к опечаткам: человек может просто промахнуться, нажать не ту клавишу, и тогда среди предложенных вариантов слова он не найдет нужного.

Другой проблемой стали ограниченный словарь и так называемые «текстонимы». Текстонимы — это слова, которые складываются из одних и тех же комбинаций цифр. Например, на 9-кнопочной клавиатуре английское слово «good» набирается так же, как «home», «gone» и т. д. T9 был закодирован так, чтобы предпочесть слово, которое программисты определили как наиболее распространенное, например «good», а не»home» или «gone», «hand» , а не «game», «bad», а не»cad» или «ace». Но способность Т9 к обучению помогает сформировать «индивидуальный словарь» каждого человека. Технология запоминает, какие новые слова пользователь часто печатает, и в дальнейшем предлагает их как варианты.

C Т9 связано огромное количество курьезных ситуаций. Например, название водки Smirnoff там превращалось в poisoned (отравлен), большие проблемы вызывала замена «себя» на «тебя», а некоторые телефоны знали матерные ругательства и странное слово «мракобулка». А однажды из-за ошибки T9 произошло убийство: система заменила в сообщении mutter (бормоталка) на nutter (псих) — и это привело к поножовщине со смертельным исходом.

Т9 стал прорывом для своего времени и дал начало многим другим способам анализа и предсказания текста. Сегодня T9 используется только в новых бюджетных моделях кнопочных телефонов. В версии ХТ9 она работает с полноценной qwerty-клавиатурой

iTap и автозаполнение

iTap — это более новая технология, которая была разработана в качестве конкурента T9. На ее основе созданы многие современные методы ввода текста куда бы то ни было. При вводе нескольких символов iTap угадывает остальную часть слова и пытается предложить несколько вариантов (как правило, три наиболее подходящих), например, при вводе «prog» вам будет предложено слово «program», но если вам нужно слово «progress», необходимо ввести несколько следующих символов, так как это слово гораздо менее употребительно. Словарь, на основе которого работает iTap содержит не только случайные слова, но и фразы, и часто употребляемые предложения. Таким образом, предположения будут строиться не только на последовательности букв, но и на последовательности слов, то есть с учетом контекста.

Многие алгоритмы автозаполнения изучают новые слова после того, как человек написал их несколько раз, и могут предлагать альтернативы, основанные на изученных привычках отдельного пользователя; стандартный словарь дополняется лексиконом владельца девайса, составляет статистику и с каждым разом предлагает все более подходящие варианты. Например, на этой схеме мы видим, как работает предположение следующего шага (предложенные буквы), а также цифры, обозначающие, как часто человек уже печатал то или иное слово:

Слово «ten» ранее встречалось чаще остальных, а это значит, что на экране телефона в качестве следующего шага именно оно появится первым.

Проблемы автозаполнения текста варьируются от языка к языку. В работе автозаполнения на русском языке недостаток состоит в вариативности окончаний слов из-за богатой морфологии. Верно угадать нужный падеж или род слова сложно — в языках вроде английского такой проблемы нет.

В 2016 году новозеландскому академику Кристофу Бартнеку предложили представить презентацию на международной конференции по атомной и ядерной физике. Бартнек мало что знал о ядерной физике и использовал функцию автозаполнения iOS, чтобы написать введение. Ученый отправил его под именем Iris Pear (ссылка на Siri и Apple).

Пример: «Атомы лучшей вселенной будут иметь право на то же, что и вы, как мы должны быть прекрасным местом для прекрасного времени, чтобы насладиться днем, когда вы замечательный человек к своему прекрасному времени, чтобы весело провести время и прекрасно провести время и насладиться прекрасным днем, когда вы будете прекрасным временем для своих родителей и детей» («The atoms of a better universe will have the right for the same as you are the way we shall have to be a great place for a great time to enjoy the day you are a wonderful person to your great time to take the fun and take a great time and enjoy the great day you will be a wonderful time for your parents and kids»).

В аннотации из 516 слов слова «хорошие» и «великие» употреблялись в общей сложности 28 раз. Несмотря на очевидную глупость, работа была принята в течение трех часов после подачи заявки. У автора запросили регистрационный сбор за конференцию в размере 1099 $ США. Бартнека сказал, что он «вполне уверен, что эта конференция посвящена деньгам и не связана с наукой».

Автор: Анна Бушмина

Редактор: Системный Блокъ

Теги:анализ текста, общение, словарный запас, Т9

Земля ему пуховик. Как работает Т9?

Т9

iTap и автозаполнение

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Земля ему пуховик. Как работает Т9?

Т9

iTap и автозаполнение

Читать по теме:

Что такое рассуждающая языковая модель и как она работает

Как работают мультимодальные модели: от пикселей — к пониманию

Как можно улучшить ответы языковых моделей? Гайд по промтам

Как работает большая языковая модель: перцептроны в чёрном ящике

О проекте

Контакты

СОЦСЕТИ

Теги

Темы