А.А. Зализняк популяризировал науку по-разному: читал множество открытых лекций, писал очерки, статьи и книги для людей про их родной язык, создавал словари. Сам академик писал о своей работе: «Это же немыслимый абсурд — делать такую работу без компьютера». И продолжал складывать десятки тысяч карточек в лотки для хлеба. Этот огромный труд заложил основу для достижений компьютерной лингвистики.
Как менялось русское ударение и почему его сложно изучать
Историческая акцентология начала развиваться сравнительно недавно. Раньше в распоряжении ученых было слишком мало акцентологических данных: далеко не все древние письменные памятники содержат сведения об ударении. Поэтому не было возможности разработать типологию акцентных систем, установить их происхождение и изучить направление изменений.
Филологические основания реконструкций раньше были скорее сравнительно-сопоставительными, нежели сравнительно-историческими. Последние достижения русистики в области текстологии, акцентологии, поэтики, критики текста, истории языка позволяют заново пересмотреть многие тексты на древнерусском и старославянском языках.
В праславянском языке ударение было свободным, подвижным и музыкальным. До позднейших времен существования праславянского языка реконструируют два исконных тона: восходящая интонация (акут) и нисходящая интонация (циркумфлекс), а также один инновационный тон — новый акут, появившийся в результате передвижения ударения.
Обращаясь к многострадальному «Слову о полку Игореве», ученые[1] делают такие выводы о древнерусском ударении:
- В древнерусском языке самым сильным слогом был слог под новоакутовой интонацией — всегда подударный слог с восходящим тоном;
- Постоянно подударным слогом был также слог с восходящей интонацией, утраченный к XI в. В настоящем времени слова с такими слогами не всегда последовательно сохранили свое постоянное ударение в корне. Например, мы ожидали бы ударение в парадигме склонения: дед, дѐда дѐду; но также и во мн. ч.: дѐды, дѐдов.Тем не менее, мы встречаем теперь просторечное и диалектное ударение: деды̀, дедов̀. Подобные изменения делают реконструкцию проблемной.
- Сильным по признаку количества был исконно долгий предударный и предконечный слог — в этих позициях сохранялась исконная длительность гласного (во втором случае — только перед слогом с редуцированным гласным).
- Самыми слабыми («абсолютно слабыми») слогами относительно всех трех просодических характеристик были слоги с редуцированными гласными ь и ъ.
Все сопоставления показывают основную особенность древнерусской акцентуации: ударение, восходящее к новоакутовой интонации, стабилизировалось на определенном слоге слова. Одновременно с этим образуются и позиционные условия организации нового ударения как средства, формирующего ритмическую структуру древнего поэтического текста. Именно оно создает основную акцентную решетку текста, выступая в качестве его опорного ритмического центра. Те слова, которые в тексте оставались неакцентованными, в самостоятельном употреблении имели слабое ударение, восходящее к древней нисходящей интонации корневого слога. Эти слова характеризовались, следовательно, подвижным ударением и в некоторых многосложных сочетаниях могли выступать с побочным, дополнительным.
В отрезке текста старыми словесы трудныхъ повѣстии теоретически каждое слово могло иметь свое собственное словесное ударение. Однако это разное ударение. Абсолютно сильным является ударение слова тру̀дныхъ — с новоакутовой интонацией корневого слога. Сильным является ударение слова старыми — с акутовой интонацией корневого слога и (вплоть до настоящего времени) неподвижным ударением на корне.
Эти два вида ударения организуют акцентную решетку фрагмента, они определенно устойчивы и в пределах данного текста, и во времени. Такая устойчивость и является ключом нашей реконструкции, хотя в некоторых случаях ученые вынуждены были прибегать к данным современных славянских языков, сохраняющих древние особенности ударения.
Ударение же двух других слов отрывка является неопределенным. Легко представить себе сочетания, в которых эти слова окажутся вообще безударными (ср. бѐз повѣcтии); они могут (и, очевидно, на самом деле имели) вариации ударения, связанные с морфологическим оформлением.
К середине XII в. в русском языке утрачиваются редуцированные (постоянно краткие) гласные, и основной просодической характеристикой русского слова и слога становится динамическое ударение. Таким образом, формально авторы первых акцентных реконструкций справедливо ориентировались именно на ударение, а не на интонацию. В действительности же они не учитывали переходный характер акцентуации в конце XII в. Трудность реконструкции ритмического рисунка «Слова» и заключается в неопределенности, неустойчивости просодических характеристик.
Современная акцентуация
Если в таких языках, как французский, финский или чешский дела с ударением обстоят довольно легко, то с русским разобраться не так и просто. Ученые давно работали над вопросом, как создать программу для автоматического расставления ударения в русском тексте. Путь к решению был тернист. Сначала ученые-технари сочиняли сложные алгоритмы, где морфемы были функциями, потом они применяли машинное обучение… Все это описывают ребята из НИУ ВШЭ в своей статье. Почему же было так сложно?
Ударение может быть музыкальным и силовым. О музыкальном ударении говорят, когда отличия в движении тона используются для различения слов (как в литовском). При силовом ударении ударный слог часто бывает более громким и/или более долгим, чем прочие, безударные, слоги. В языках с силовым ударением различия в движении тона не различают слова, но помогают отличать, например, вопрос от утверждения, как в русском языке.
Это яблоко. (нисходящая интонация на ударном гласном) — утверждение
Это яблоко? (восходящая интонация) — вопрос
Ударение, как музыкальное, так и силовое, может располагаться относительно границ слова по-разному. Все типы просодической организации слов связаны друг с другом и могут в ходе языковой эволюции переходить один в другой.
Русское ударение свободно и подвижно. Русское ударение существенным образом связано с морфологическим членением; в частности, оно может быть закреплено за определенной морфемой. Соответственно, можно говорить о корневом, префиксальном, суффиксальном и флексионном ударении. Кроме того, ударение может быть закреплено на основе: на последнем слоге основы, на одном и том же слоге по счету от начала. Вариантов много, и все эти варианты Зализняк сгруппировал в схемы, описав акцентную систему русского языка. Что для этого нужно было сделать?
Можно было бы создать список, где описывалось бы изменение ударения каждой словоформы. Но представим размер этого списка… Берем около 10000 слов, указываем ударение в исходных словоформах слов, ударение в прочих словоформах «вычисляется» далее по соответствующим индексам и таблицам. Такой вариант Зализняка не устроил. Поэтому нужно было выявить определённые характеристики, чтобы найти типы изменения ударения и объединить по этим схемам словоформы. Например, одна из характеристик:
а — ударение всегда на основе;
b — ударение всегда на окончании.
Определив типы и подтипы, выявив схемы ударения, Зализняк создает таблицы, по которым можно определять, как будет стоять ударение в слове.
Важно, что в современном русском языке есть ряд факторов, от которых может зависеть ударение в слове. Кроме прямого наследования, передачи ударения через устное общение поколений, к этим факторам будут относиться и морфемный состав слова, и его история, и степень освоенности языка говорящим. Многие из свойств слова определяются не строго (например, освоенность), поэтому правила акцентуации неизбежно перестают быть неоспоримыми и становятся относительными.
Вот перечень факторов, которые влияют на современную акцентуацию русского языка:
- Производное слово или непроизводное:
непроизводное: живой, багаж, вода
производное: проход, колокольчик, загибать - Плотно или неплотно присоединяются морфемы:
если морфема прилегает неплотно, то слово спокойно существует без неё, и ударение не меняется: межплеменной — племенной; непроезжий — проезжий и т.д. - Освоено слово носителем или нет (насколько оно знакомо):
до̀быча — добы̀ча
По этим характеристикам и определяют акцентные типы и схемы ударения, которые строятся в большие таблицы акцентуации. Все эти параметры можно прочитать в двухтомнике «Труды по акцентологии». Таблицы имеют множество маркировок суффиксов, приставок, основ. Важно ещё, что так называемые проклитики и энклитики могут оттягивать ударение на себя: на̀ небо, со̀ стола, на̀ слово.
Современные акцентуаторы
Развивался-развивался наш язык, менял ударения, количество гласных и согласных, а ученым нужно что-то с этим делать. Зализняк мечтал о программе, которая сможет расставлять ударения автоматически. Но за каждой такой программой лежит титанический труд — составление характеристик. Наша серия статей памяти академика Зализняка — история о труде, который сделал возможным создание таких программ.
Уникальным в своем роде является акцентуатор для русского языка rusStress — разработка магистратуры «Высшей школы экономики». RusStress — это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения.
В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка. LSTM (или long short-term memory) — это долгая краткосрочная память. В отличие от традиционных рекуррентных нейронных сетей, LSTM-сеть хорошо приспособлена к обучению на задачах классификации, обработки и прогнозирования временных рядов. LSTM особенно крута в распознавании несегментированного слитного рукописного текста. Также LSTM-сети используются в задачах распознавания речи.
Рекуррентные нейронные сети (РНС) — это вид нейронных сетей, где связи между элементами образуют направленную последовательность. Благодаря этому появляется возможность обрабатывать серии событий во времени или последовательные пространственные цепочки.
В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А.А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями. Основное различие между источниками в том, что транскрипция не может содержать все формы слова и, что более важно, отражает использование того или иного слова (его словоформы) в контексте. Принимая во внимание контекст, ученые могут различить, например, слова о̀блака и облака̀ [2], именно контекст в большинстве случаев и покажет, стоит слово в единственном или множественном числе.
На сайте действует два акцентуатора. Один — нейросеть, обученная на большом корпусе. Она быстро и хорошо работающая черная коробка. Если вам нужно быстро проставить в тексте ударения, вам к ней. А второй акцентуатор правиловый, это результат долгого и кропотливого труда. Если вы хотите узнать не только само ударение, но и то, почему его позиция именно такая, выбирайте правиловый.
UPD 2022: успешная комбинация
Инструмент, о котором мы рассказали в предыдущем разделе, был создан в 2017 году, но наука не стоит на месте. Большинство акцентуантов для русского языка делятся на два типа — программы на основе нейросетей (такие как rusStress) и программы, которые размечают ударения с помощью словарей (такие системы еще называют правиловыми). У обоих подходов есть преимущества и недостатки. Нейросети справляются с контекстным снятием неоднозначности, но ошибаются в случаях, которые не подчиняются статистическим закономерностям. А программы на основе правил точно определяют место ударения в большинстве слов, но не различают омографы (слова, которые пишутся одинаково, но произносятся по-разному) и не могут разметить слова, не попавшие в подключаемые к программе словари.
В 2021 году появился первый комбинированный акцентуатор для разметки русского поэтического текста [3] и общедоступная питоновская библиотека ru-accent-poet на его основе. Разработчица, Ю. О. Короткова, совместила rusStress и правиловую систему А. Полякова [4]. Принцип работы нового инструмента в том, что слова, в которых ударение определено однозначно, размечаются при помощи правил, а остальные — при помощи нейронных сетей.
Чтобы показать эффективность комбинированного подхода, исследовательница сравнила свой метод с двумя использованными системами и нейросетевой библиотекой russ, созданной И. Гусевым [5]. Она вручную разметила шесть русских стихотворений и подсчитала, сколько раз ударение, размеченное каждым акцентуатором, совпадало с ударением, размеченным человеком. Комбинированный акцентуатор оказался точнее всех остальных решений. Кроме того оказалось, что библиотека Гусева помимо омографов неверно размечает еще и частотные слова с однозначно определяемым местом ударения.
Созданный инструмент разметки может применяться для разработки поэтических корпусов.
Мы рассказывали о берестяных грамотах и споре вокруг «Слова о полку Игореве». Читайте в следующих статьях серии о том, как труды академика Зализняка — в частности синхронное описание русской морфологии — используются в технологиях Яндекса.
Источники
[1] В.В. Колесов. Ударение в «Слове о полку Игореве»
[2] Automated Word Stress Detection in Russian
[4] А. Поляков Акцентуатор для русского языка.