NLP

Что делать лингвисту в NLP в эпоху LLM

Вы — лингвист и вам кажется, что ваш труд теряет ценность на фоне успеха больших языковых моделей? Не спешите с выводами. Хотя обработка естественного языка больше не строится на лингвистике и правилах, работа в этой области все еще есть. Лингвисты могут сделать работу ИИ точнее, этичнее и понятнее — от разметки данных до оценки качества генерации

Нужны ли лингвисты в NLP?

Сегодня работа в сфере обработки естественного языка (NLP), как уже рассказывал «Системный Блокъ», не требует от инженеров глубокого знания лингвистики. Современные большие языковые модели (LLM) учатся на огромных массивах текстов и не требуют никакого ручного кодирования внутри себя правил грамматики или иной настройки, для которой нужно было бы лингвистическое знание. Значит ли это, что лингвисты больше не нужны в разработке LLM? Отнюдь нет!

Авторы статьи Natural Language Processing RELIES on Linguistics («Обработка естественного языка полагается на лингвистику») показывают: несмотря на успехи нейросетей, в NLP все еще есть место лингвистическому знанию [1].

Для демонстрации своего тезиса они предлагают мнемоническую аббревиатуру RELIES (от англ. relies on — «полагается на»). Она объединяет шесть направлений, где может пригодиться экспертиза лингвистов:

  • Resources (ресурсы) — создание качественных датасетов и разметка;
  • Evaluation (оценка) — разработка метрик и тестов, выявляющих реальные возможности моделей;
  • Low-Resource Settings (малоресурсные среды) — работа с языками, для которых мало данных;
  • Interpretability (интерпретируемость) и Explanation (объяснимость) — понимание того, как и почему модель принимает решения;
  • Study of Language (изучение языка) — использование NLP-инструментов для фундаментальных исследований человеческой речи.

Посмотрим на каждую из этих сфер подробнее.

Ресурсы: сколько лингвистов нужно, чтобы разметить данные?

Машинное обучение нуждается в больших объемах качественных данных. Лингвисты могут помочь инженерам при выборе и подготовке датасетов. Для задач машинного перевода, суммаризации (краткого пересказа) и анализа тональности (сентимента) используются лингвистические корпусы. Лингвисты способны проследить за их репрезентативностью: учесть диалектное разнообразие, сбалансировать жанры и регистры речи, отфильтровать токсичный контент.

Например, команда проекта BabyBabelLM [2] исследует вопрос, как вычислительная система может обучаться языку на ограниченных данных. Для того чтобы это выяснить, с 2023 года проводятся научный семинар и конкурс среди разработчиков, лингвистов, исследователей нейронаук. Для решения задач используется многоязычный датасет, данные для которого отбирались с опорой на когнитивную лингвистику. Он моделирует то, как ребенок осваивает родной язык.

Языковое разнообразие состава датасета BabyBabelLM. Источник: BabyBabelLM

Цель челленджа в 2026 году — оптимизация предварительного обучения LLM с учетом ограниченных данных, обусловленных особенностями развития человека. Кроме того, таким образом организаторы помогают привлечь к решению проблем предварительного обучения как можно больше заинтересованных исследователей. 

Тренировочный датасет включал в себя транскрипции речи, обращенной к ребенку — основной источник знаний о языке, детскую литературу, видео. Лингвисты участвовали в формировании датасета, помогая инженерам минимизировать набор данных и сохраняя полную репрезентативность языка. В итоге такой набор позволяет симулировать обучение человека на гораздо меньших объемах информации.

В других исследовательских областях лингвисты работают над типологическими индексами, чтобы гарантировать покрытие разнообразных грамматических структур, а не просто набрать большой объем текста.

Еще одна задача для лингвистов — разметка данных. Для обучения моделей часто нужны тексты с «золотыми метками» (такие, где указаны подлежащее и сказуемое в предложении или определена эмоциональность). Обычно для этого используют краудсорсинг, привлекая тысячи обычных людей. Но у неспециалистов часто не хватает экспертности: они могут по-разному трактовать сложные случаи, что снижает качество данных. 

Здесь могут помочь лингвисты, ведь они гораздо лучше знают законы функционирования естественного языка. Кроме того, они могут участвовать в составлении инструкций для разметчиков: формулировать правила так, чтобы можно было избежать двусмысленности, и разрешать спорные случаи, обеспечивая согласованность разметки. Существует даже научная лаборатория, которая занимается изучением и автоматическим разрешением неточностей в инструкциях.

Оценка: как лингвист может поймать ИИ в ловушку

Все продукты нуждаются в оценке. Модели способны выделить общие паттерны, анализируя терабайты данных, но для оценки их работы всегда нужен «золотой стандарт» — 100% правильный ответ. В сфере NLP с этим могут помочь лингвисты — предоставить ответы на задания, разметить датасет.

Хотя существует много автоматических метрик (например, традиционные Precision, Recall и F1, отражающие соотношение правильных вариантов с ошибками), каждый конкретный кейс обработки текстов может потребовать новых методов оценки. В их разработке могут участвовать лингвисты. Так, была разработана метрика MENLI [3], которая оценивает качество генерации текста с помощью логического вывода на естественном языке (Natural Language Inference), а не простого поверхностного сходства слов. Она применяется для двух задач: машинный перевод и суммаризация текста. Хотя разработчики полагают, что ее применение может быть еще более широким. Этот подход позволяет глубоко анализировать смысловые связи и фактическую достоверность информации. В результате оценка становится значительно более устойчивой к состязательным атакам и смысловым искажениям, перед которыми часто пасуют стандартные алгоритмы.

Кроме того, лингвисты могут оценивать качество самих метрик и участвовать в разработке специальных тестов. Лингвисты, в отличие от ИИ, знают, какие языковые явления можно считать сложными (например, инверсия отрицания, тонкие оттенки смысла, сарказм). Они проектируют тестовые наборы данных, специально содержащие эти «ловушки», чтобы проверить, сможет ли метрика их обнаружить и правильно «наказать» модель за ошибку.

Малоресурсные среды: как обучать LLM на материале редких языков

Считается, что в мире от 6,5 до 7,5 тыс. живых языков. Какие-то из них имеют сотни миллионов носителей (английский, испанский, французский, ханьский китайский, хинди, русский, арабский и еще несколько), другие, наоборот, близки к вымиранию и имеют не сотни, а десятки или даже единицы носителей.

Машинное обучение основано на статистике, но что делать, если данных для выведения надежных паттернов конструирования языка совсем мало? Ответ простой — позвать лингвиста.

Во-первых, лингвисты, специализирующиеся на малоресурсных языках, пишут грамматики и составляют словари для этих языков — а это прекрасный источник данных для моделей. Во-вторых, лингвисты изучают специфику языков, что позволяет им адаптировать методы обучения моделей и токенизации под конкретные кейсы. В-третьих, в условиях, когда нет доступа к носителям языка для проверки систем, именно полевые лингвисты могут выступить экспертами. 

Пример влияния NLP-технологий на ресурсы для малых языков — использование комбинации базовых алгоритмов распознавания голоса и идентификации языка для сортировки 136 часов архивных записей вымирающего австралийского языка мурувари. Автоматическая изоляция английских комментариев от ценной местной речи позволила экспертам сэкономить 20% времени на ручной расшифровке текстов, даже имея на руках критически малый объем обучающих данных [4]. 

Немаловажен факт, что для решения своих же задач лингвисты составляют парсеры и теггеры, а также пишут простейшие алгоритмы (например, для подсчета существительных в тексте). И по сей день эти готовые, дешевые в вычислительном плане инструменты эффективны и востребованы для простых задач или обработки огромных массивов данных.

Еще один способ сэкономить ресурсы — заложить лингвистические знания прямо в архитектуру или процесс обучения модели: например, встроить морфологические правила в токенизатор или задать синтаксические ограничения. Тогда модели не нужно самостоятельно «открывать» то, что лингвисты уже описали — особенно это актуально для малоресурсных языков, где данных слишком мало, чтобы вывести эти закономерности статистически.

А еще важны культурный и этический аспекты: благодаря знанию контекста, лингвисты позволяют создавать NLP-технологии, которые учитывают культурные особенности общения, делая их более этичными и уместными. Они также помогают избежать навязывания технологий «сверху вниз», что может быть разрушительно для локальных сообществ, разговаривающих на редких языках.

Интерпретируемость и объяснимость ИИ: как лингвисты делают LLM предсказуемыми

Интерпретируемость и объяснимость — свойства алгоритмов и моделей, которые помогают понять, какие факторы влияют на результат. Системный Блокъ уже писал о проблеме интерпретируемости работы LLM и «объяснимости» ответов. 

Нередко оба аспекта сопровождаются лингвистическим анализом исходных данных модели и ее ответа. Отличный пример — нейросети, генерирующие картинки по тексту, которые часто путают признаки объектов, рисуя, скажем, вместо «желтого фламинго и розового подсолнуха» «розового фламинго и желтый подсолнух». Чтобы сделать логику ИИ более объяснимой, исследователи предложили метод SynGen [6]. Специальный алгоритм по правилам синтаксиса находит в тексте жесткие связи между существительными и их прилагательными. Опираясь на эту грамматическую структуру, разработчики точечно корректируют «внимание» нейросети прямо в процессе создания картинки, заставляя алгоритм работать прозрачно и без необходимости его переобучать.

Иллюстрация Светы Нагаевой

Лингвисты могут оценить качество работы language-agnostic методов — подходов, применимых к любому языку. Зная, как функционируют отдельные языки, лингвист может вывести общие паттерны — например, что во многих из них обязательно есть слова, обозначающие части тела, ближайших родственников, время суток и т.д. Именно этот принцип универсальности понятий лежит в основе знаменитого «списка Сводеша», который сегодня служит надежным фундаментом для выравнивания параллельных текстов и создания единых кросс-языковых моделей машинного обучения [5]. 

Иллюстрация Светы Нагаевой

Изучение языка

В это направление попадает научное изучение естественного языка (по сути, сама лингвистика, языкоЗНАНИЕ) и изучение языка с целью его использования (обучение языкам).

Создание автоматических парсеров (программ, которые разбирают текст по правилам и выявляют его структуру) началось с необходимости изучения больших корпусов текстов для выявления языковой специфики (что такое корпус смотрите здесь) — моделирования грамматики, формализации используемых в нем структур. Работа исторических лингвистов повлияла на развитие способов оптического распознавания документов (Optical Character Recognition, OCR, смотрите здесь) и транскрибации аудиозаписей. 

NLP-технологии также востребованы в сфере обучения языкам. Так, современные системы автоматической оценки эссе в языковых экзаменах (Automated Essay Scoring) [7] анализируют тексты учащихся на множестве лингвистических уровней — от богатства лексики до дискурса и аргументации. Это позволяет алгоритмам не просто выставлять итоговый балл, сопоставимый с оценкой эксперта-человека, но и формировать обратную связь, указывая студенту на логические и стилистические пробелы в его работе. 

Лингвистическая экспертиза в ИИ все еще полезна

Как наглядно демонстрирует фреймворк RELIES, лингвистическая экспертиза никуда не исчезла — она сместилась на более нишевые задачи или более высокие уровни абстракции. Сегодня лингвисты продумывают состав качественных датасетов, разрабатывают изощренные метрики оценки, спасают языки с малым числом носителей и выступают своеобразными «переводчиками» между машинным обучением и человеческим смыслом. 

Поэтому, если вы только планируете начать свой путь в этой сфере, помните: технологии и архитектуры нейросетей меняются практически каждый день, но глубокое понимание устройства естественного языка делает вас специалистом, который может решать задачи, перед которыми алгоритмы пока бессильны.

Источники

  1. Opitz J., Wein S., Schneider N. Natural language processing relies on linguistics // Computational Linguistics. 2025. Vol. 51. N. 3. P. 1009–1032. DOI: 10.48550/arXiv.2405.05966.
  2. Hu M.Y., Mueller A., Ross C. et al. Findings of the second BabyLM challenge: Sample-efficient pretraining on developmentally plausible corpora // The 2nd BabyLM Challenge at the 28th Conference on Computational Natural Language Learning. 2024. P. 1–21. DOI: 10.48550/arXiv.2504.08165.
  3. Chen Y., Eger S. MENLI: Robust evaluation metrics from natural language inference // Transactions of the Association for Computational Linguistics. 2023. Vol. 11. P. 804–825. DOI: 10.48550/arXiv.2208.07316.
  4. San N., Bartelds M., Ogunremi T. et al. Automated speech tools for helping communities process restricted-access corpora for language revival efforts // Proceedings of the Fifth Workshop on the Use of Computational Methods in the Study of Endangered Languages. 2022. P. 41–51. DOI: https://doi.org/10.48550/arXiv.2204.07272.
  5. Swadesh M. Towards greater accuracy in lexicostatistic dating // International Journal of American Linguistics. 1955. Vol. 21. N. 2. P. 121–137.
  6. Rassin R., Hirsch E., Glickman D. et al. Linguistic binding in diffusion models: Enhancing attribute correspondence through attention map alignment // Advances in Neural Information Processing Systems. 2023. Vol. 36. P. 3536–3559. DOI: 10.48550/arXiv.2306.08877.
  7. Klebanov B., Madnani N. Automated Essay Scoring. Cham: Springer. 2022. 294 p.
Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026