Читать нас в Telegram

Всего двадцать лет назад по запросу «как расчесать длинношерстную собаку» поисковые алгоритмы могли не выдать вам нужной статьи: они просто не понимали, что «собаку» и «собака» это одно и то же слово в разных падежах. Чтобы поисковый алгоритм понимал такие запросы, он должен уметь приводить слова к начальной форме — нормализовывать. После нормализации наш запрос выглядит так: «как расчесывать длинношерстный собака». Нормализация нужна для корректной работы поисковых машин, онлайн-переводчиков и других сервисов, использующих в работе распознавание речи. Работая с нормализованными словами, поисковый алгоритм сможет показать нам все статьи, в которых упоминаются разные сочетания этих слов, а онлайн-переводчик может перевести каждое слово по отдельности, образовывать грамматические формы для каждого из них по правилам другого языка и заново собрать из этих слов предложение.

Чтобы уметь автоматически нормализовывать слова на любом языке, поисковый алгоритм должен понимать, по каким правилам и законам работает его морфологическая система. Описание морфологии русского языка с его сложными правилами и большим количеством исключений представлялось трудным и совсем не быстрым делом. Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А.А. Зализняка.

Словарь Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы. Уточним основные термины:

Слово — единица языка и словаря, служащая для выражения отдельного понятия (корова)
Словоформа — одна из форм слова, обладающая определенными грамматическими характеристиками (корова — корову — коровой)
Лексема — единица языка, включающая в себя все словоформы с одним и тем же номинативным значением. Например словоформы кол, кола, колом относятся к одной лексеме — кол. Но кол (палка для убийства вампиров) и кол (оценка) имеют разное значение и являются разными (омонимичными) лексемами.
Основа слова — неизменяемая часть слова, которая выражает его лексическое значение.
Совокупность всех грамматических значений, представленных у некоторой лексемы или дополнительно приписанных ей называется парадигмой.

До появления компьютеров и поисковых систем А.А. Зализняк придумал классификацию для ста тысяч русских русских слов — систему, которая позволяла построить парадигму любого слова на основании его исходной словоформы и небольшого количества дополнительных сведений. Например, при помощи грамматического словаря можно проверить, как спрягается глагол опостылеть и склоняется слово дитя.

Классификация Зализняка основана на системе индексов, распределяющей все слова русского языка на несколько групп. Индекс каждого слова состоит из цифры и буквы.

Цифра индекса

1 — слова с основой на твёрдый согласный (твёрдый, топор, тусклый, комод )
2 — слова с основой на мягкий согласный (весенний, тюлень, искатель, Дуня )
3 — слова с основой на г, к или х (сапог, золотко, петух, мягкий)
4 — слова с основой на ж, ш, ч, щ (калач, святоша, жилище, вече)
5 — слова с основой на ц (немец, девица, куцый)
6 — слова с основой на гласный (кроме и) или й/j (бой, шея, здоровье)
7 — слова с основой на и (сложение, удостоверение)
8 — слова с традиционным «3 склонением» (боль, тетрадь)

Буква индекса

a — ударение всегда на основу (парад, мама, платежный)
b — ударение всегда вне основы, если есть что-либо кроме основы (топор, родной)
c — ударение на основу в ед. ч. и вне основы во мн. ч. (дар, место, поле)
d — ударение на окончание в ед. ч. и на основу во мн. ч. (заря)
e — ударение на основу в ед. ч. и им. п. мн. ч., вне основы в остальных падежах мн. ч. (корень, новость)
f — ударение на основу в им. п. мн. ч. и вне основы в остальных случаях.

Работа над словарем длилась 13 лет. А.А. Зализняк на бумажных карточках вручную составил морфологические описания каждого слова русского языка. Первое издание словаря было в 1977 году. В предисловии к четвертому изданию «Грамматического словаря» Зализняк писал: «Нынешним молодым читателям уже трудно представить себе, что эта работа делалась вручную. „Это же немыслимый абсурд — делать такую работу без компьютера“, — доводилось мне слышать. В действительности рабочим инструментом были четыре хлебных лотка, раздобытых в соседней булочной; в каждый входило по 25 тысяч карточек из тонкой бумаги».

«Грамматический словарь» Зализняка вскоре стал незаменим для появляющихся компьютерных программ, а особенно — для поисковых алгоритмов. На нем основано автоматическое порождение всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре и в компьютерной морфологии Яндекса.

Основываясь на словаре Зализняка, Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово. Для таких неизвестных слов — неологизмов, заимствований и т. д. — создается гипотетическая словарная статья, соотносящая слово с разными словарными типами, описанными у Зализняка, и определяющая его словообразовательную модель. Например, если в русском языке приживется английский глагол «to Meghan Markle» — меганмарклить, т.е. уходить от тех, кто тебя не ценит, Яндекс поймет, что это новое слово похоже на слова, имеющие в словаре Зализняка тип спряжения 4а — куролесить, множить — и будет спрягать его по этой же модели (меганмарклил, меганмарклю, буду меганмарклить).

Так же работает и языковое чутье автора трека «я крокодил, крокожу и буду крокодить». В этом тексте множество раз содержится неизвестный русскому языку глагол-неологизм «крокодить», спрягаемый, по Зализняку, по тому же самому типу 4а:

«Я крокодил, крокожу и буду крокодить
Я крокодил, крокожу и буду крокодить
Если звонит мой дилер
Значит мы крокодилим»

Ни нейросети, ни другие механизмы машинного обучения пока не могут описать морфологическую систему естественного языка. Чтобы справиться с этой задачей, им обязательно нужно на что-то опираться. Например, на сто тысяч карточек и на одного человека, приблизившего нас к привычному миру с поисковиком, навигатором и переводчиком.

Источники

  • Зализняк А.А. Грамматический словарь русского языка: Словоизменение: около 100000 слов. М.: Русский язык, 1977.
  • Зализняк А.А. «Русское именное словоизменение» с приложением избранных работ по современному русскому языку и общему языкознанию. М., 2002.