Многабукаф, ниасилил: как алгоритмы оценивают сложность текста

Понятен ли текст? Тяжело ли его читать? Как измерить его сложность? Эти вопросы волнуют многих. Методистов, которым необходимо понимать, подходит ли текст под возраст ученика. Издателей и маркетологов, заинтересованных в том, чтобы их тексты читали до конца и хорошо понимали. Преподавателей иностранного языка, которые хотят находить аутентичные тексты, подходящие студентам по уровню. А еще — чиновников, которым надо писать законы на доступном для понимания языке.

Проблема расчета сложности текстов возникла в 20-40 г. XX века. Тогда же были придуманы первые метрики читабельности. Большинство из них основывались на простой логике: чем длиннее предложения и слова, тем текст сложнее (тадам!).

Это, например, одна из самых популярных формул, разработанная Р. Флешем для английского языка ещё в 1942 году. Она учитывает количество слов, предложений и слогов и выдает результат по шкале от 0 до 100. Кстати, она до сих пор доступна в Word. А проверить ваш русский текст сразу по 5 популярным метрикам можно здесь. Например, наша статья по сложности подходит читателям, доучившимся хотя бы до 10-11 класса:

Для сравнения: у сказки «Колобок» уровень читабельности — 3 (1 — 3 класс школы), у викистатьи про мюон — 15,04 (4 — 6 курсы вуза).

Сейчас проблема ранжирования текстов по сложности переживает второе рождение — с использованием машинного обучения. Исследователи задействуют большие коллекции данных и ищут новые параметры текста, которые могут определять сложность — от «глубины» синтаксических конструкций до количества слов в родительном падеже.

Например, Сергей Шаров из Университета Лидса использовал параллельные тексты обычной Википедии и Simple English Wikipedia. Шаров измерял как обычные параметры вроде количества слов и предложений в тексте, так и нестандартные, например, долю пассивных конструкций или список наиболее частотных слов языка (такие слова заведомо всем известны — а значит, их высокая доля в тексте облегчает чтение). Еще подсчитывалось покрытие текста самыми частотными последовательностями частей речи (ср. «твой милый образ» VS «образ милый твой»).

Далее эти признаки были сжаты до двух обобщенных параметров. Это стандартная практика в исследованиях, где признаков много, а хочется получить понятную картинку с двумя осями (подробнее см. PCA). Полученные два параметра (две главные компоненты) вместе содержат максимум информации обо всех признаках сразу — это позволяет уложить все тексты на плоскости и как-то сгруппировать по совокупной сложности. По мнению С. Шарова, в данном случае они приблизительно отображают лексическую и грамматическую сложность текста:

На картинке видно, что упрощенные статьи (отмечены префиксом s-), обычно находятся ниже по обеим шкалам сложности. Однако есть и исключения: упрощенная статья про Эзопа (s-Aesop) лексически оказалась сложнее оригинальной версии! Анализ показал, что упрощение там часто сводилось к укорачиванию фраз, а из-за этого они действительно стали сложнее.

Автор: Антонина Лапошина

Теги:NLP, PCA, readability, анализ текста, компьютерная лингвистика, метрики

Что делать лингвисту в NLP в эпоху LLM

Вы — лингвист и вам кажется, что ваш труд теряет ценность на фоне успеха больших языковых моделей? Не спешите с выводами. Хотя обработка естественного языка больше не строится на лингвистике и правилах, работа в этой области все еще есть. Лингвисты могут сделать работу ИИ точнее, этичнее и понятнее — от разметки данных до оценки качества генерации

Яна Хлусова, Елизавета Кузьменко

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну, как они связаны с токенизаторами, генерацией текста и нейросетями и почему понимание базовых концепций помогает перестать воспринимать модели как магию

Марина Севостьянова

Списывание XXI века: как определить, что эссе написал ИИ

Трансформеры с помощью fine-tuning узнают, написал ли эссе искусственный интеллект или человек. Рассказываем о различных методах идентификации ИИ-текста и актуальных моделях

Алия Закирова

Пьющих просьба не беспокоить: анализируем язык объявлений о сдаче квартир с помощью LLM

Что нужно человеку, чтобы снять квартиру в России? Каждый, кто читал объявления на популярных сайтах, знает, что нужно не только заплатить за аренду, но и соответствовать требованиям арендодателя. Чтобы узнать, какие требования оказались самыми распространенными, а какие удивят даже самого опытного квартиросъемщика, мы обработали 15 тысяч объявлений с помощью LLM

Дарья Балуева

Многабукаф, ниасилил: как алгоритмы оценивают сложность текста

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Многабукаф, ниасилил: как алгоритмы оценивают сложность текста

Читать по теме:

Что делать лингвисту в NLP в эпоху LLM

Какая математика нужна джуну в NLP?

Списывание XXI века: как определить, что эссе написал ИИ

Пьющих просьба не беспокоить: анализируем язык объявлений о сдаче квартир с помощью LLM

О проекте

Контакты

СОЦСЕТИ

Теги

Темы