Понятен ли текст? Тяжело ли его читать? Как измерить его сложность? Эти вопросы волнуют многих. Методистов, которым необходимо понимать, подходит ли текст под возраст ученика. Издателей и маркетологов, заинтересованных в том, чтобы их тексты читали до конца и хорошо понимали. Преподавателей иностранного языка, которые хотят находить аутентичные тексты, подходящие студентам по уровню. А еще — чиновников, которым надо писать законы на доступном для понимания языке.
Проблема расчета сложности текстов возникла в 20-40 г. XX века. Тогда же были придуманы первые метрики читабельности. Большинство из них основывались на простой логике: чем длиннее предложения и слова, тем текст сложнее (тадам!).
Это, например, одна из самых популярных формул, разработанная Р. Флешем для английского языка ещё в 1942 году. Она учитывает количество слов, предложений и слогов и выдает результат по шкале от 0 до 100. Кстати, она до сих пор доступна в Word. А проверить ваш русский текст сразу по 5 популярным метрикам можно здесь. Например, наша статья по сложности подходит читателям, доучившимся хотя бы до 10-11 класса:
Для сравнения: у сказки «Колобок» уровень читабельности — 3 (1 — 3 класс школы), у викистатьи про мюон — 15,04 (4 — 6 курсы вуза).
Сейчас проблема ранжирования текстов по сложности переживает второе рождение — с использованием машинного обучения. Исследователи задействуют большие коллекции данных и ищут новые параметры текста, которые могут определять сложность — от «глубины» синтаксических конструкций до количества слов в родительном падеже.
Например, Сергей Шаров из Университета Лидса использовал параллельные тексты обычной Википедии и Simple English Wikipedia. Шаров измерял как обычные параметры вроде количества слов и предложений в тексте, так и нестандартные, например, долю пассивных конструкций или список наиболее частотных слов языка (такие слова заведомо всем известны — а значит, их высокая доля в тексте облегчает чтение). Еще подсчитывалось покрытие текста самыми частотными последовательностями частей речи (ср. «твой милый образ» VS «образ милый твой»).
Далее эти признаки были сжаты до двух обобщенных параметров. Это стандартная практика в исследованиях, где признаков много, а хочется получить понятную картинку с двумя осями (подробнее см. PCA). Полученные два параметра (две главные компоненты) вместе содержат максимум информации обо всех признаках сразу — это позволяет уложить все тексты на плоскости и как-то сгруппировать по совокупной сложности. По мнению С. Шарова, в данном случае они приблизительно отображают лексическую и грамматическую сложность текста:
На картинке видно, что упрощенные статьи (отмечены префиксом s-), обычно находятся ниже по обеим шкалам сложности. Однако есть и исключения: упрощенная статья про Эзопа (s-Aesop) лексически оказалась сложнее оригинальной версии! Анализ показал, что упрощение там часто сводилось к укорачиванию фраз, а из-за этого они действительно стали сложнее.