Читать нас в Telegram

Морфология как часть грамматики изучает внутреннюю структуру слова, его «поэлементный состав». Известно, что родственные естественные языки (под «родственными» мы понимаем языки из одной семьи, а под «естественными» — обычные человеческие языки, появившиеся естественным образом и используемые для общения) обладают схожей структурой. Общая морфология как направление лингвистики является как бы суммой всех частных морфологий конкретных языков. То есть общая морфология пытается объединить в себе и изучить все возможные типы морфологических правил, существующих в естественных языках.

Например, говоря «французская морфология», мы подразумеваем часть грамматики французского языка которая описывает правила внутреннего устройства слов во французском. А сильно ли французския морфология будет отличаться от корсиканской? Или, например, белорусская — от русской?

Основная идея кросс-языковой морфологии в том, что если языки — родственные, то их структурные сходства прослеживаются на разных уровнях. На морфологическом уровне это может выражаться в наличии общих морфем (минимальных структурных единиц) или единых законов (например, в способах образования степеней сравнения у прилагательных). Лингвистам, и особенно компьютерным, это свойство межъязыковой структурной схожести очень интересно: оно позволяет моделировать и переносить процессы одного языка на другой.

Естественные языки различаются степенью изученности доступным объемом данных. Например, английский, испанский, французский, немецкий, русский, турецкий хорошо описаны, изучены, без труда можно найти тексты на одном их этих языков. А вот каталанский, сардинский, фарерский и крымскотатарский уступают им в ресурсах — найти новостное издание на фарерском или блог на крымскотатарском сложнее. Такие языки называются малоресурсными (МРЯ, low-resourced, under-resourced languages). Из-за того что у нас нет большого количества данных, с такими языками сложно работать: например, мы не можем построить хорошую векторную модель для работы с семантикой слов — она требует наличия большого корпуса текстов. Еще сложнее будет с машинным переводом, ведь там нужен уже двуязычный параллельный корпус. Что же делать, когда данных для классических алгоритмов и методов типа «обучить на корпусе Х » недостаточно?

Одним из решений является перенос на малоресурсный язык статистических моделей, построенных на данных большого родственного языка. Например, чтобы создать морфологический анализатор (инструмент, который разбивает слово на составные части, может представить начальную форму или парадигму его изменения) для крымскотатарского, можно создать модель и обучить ее на данных для турецкого, казахского, башкирского и татарского. Такие методы применяются как самостоятельных модулях (при создании морфоанализатора как конечного продукта), так и на этапах предобработки, перед синтаксическим модулем, в любом NLP-инструменте, например, в задачах машинного перевода, проверки орфографии, и тд.

Например, я и мои коллеги из НИУ ВШЭ Владислав Михайлов, Олег Сериков и Лоренцо Този использовали свойства кросс-языковой морфологии в самостоятельной прикладной задаче: мы занялись созданием универсального морфоанализатора (состоящего из алгоритмов сегментации морфем, переноса разметки и нейросетевой LSTM-модели) для малоресурсных языков, где написание классического анализатора под каждый язык не представляется возможным в виде малого количества данных. И даже написали статью о результатах.

На данный момент алгоритм умеет лемматизировать (приводить начальную форму слова) и проводить морфологический анализ для слов малоресурсных языков. Но это только начало: пока он работает на языках агглютинатинативного типа (как турецкий, крымскотатарский и башкирский) и романского (как испанский, французский и сардинский), в дальнейшем можно добавить славянские языки, включая и русский!

Таким образом, кросс-языковая морфология позволяет решать многие прикладные задачи компьютерной лингвистики для языков, на которых нет большого объема данных для машинного обучения. Эта возможность сильно облегчает жизнь исследователям, ведь теперь у них есть инструменты автоматического анализа не только для крупных языков, но и для их младших братьев.