Как работает стилометрия
Стилометрический анализ включает несколько стадий: предобработка текста, извлечение признаков, статистический анализ и визуализация [1]. Извлечение признаков и их статистический анализ — это важнейшие этапы, от которых зависит результат. В качестве признаков часто выбирают токены — слова, n-граммы (сочетания слова) или символы. Затем считают, сколько раз эти токены встречаются в выбранном тексте и отбирают наиболее частотные. Когда в качестве токенов выступают слова, то самыми распространёнными в тексте окажутся служебные части речи. Именно их уникальная конфигурация отличает одного автора от другого.
Если взять 100 наиболее частотных слов корпуса и подсчитать частоту их в каждом тексте, получится 100-мерный вектор, описывающий авторский стиль. Теперь можно расположить эти векторы в пространстве и посчитать расстояние между ними. Те тексты, которые будут формировать отдельные кластеры, то есть стоять ближе друг другу и дальше от других текстов, и будут скорее всего указывать на единого автора. Чтобы определить авторство некоторого текста, можно вычислить его расстояние до остальных текстов из корпуса. Чем меньше расстояние между текстами, тем они больше похожи по стилю, а значит, тем вероятнее, что их написал один автор.
Как показывают исследования, стилометрия работает достаточно хорошо при правильно подобранном корпусе. Результат, полученный с помощью стилометрии, можно использовать как дополнительный аргумент в вопросах определения авторства. Мы уже писали про стилометрию древнегреческих текстов, кинодиалогов, испанской поэзии, а также делали гайды по этому методу. Теперь разберёмся, как стилометрия работает на японских текстах.
В чём сложность стилометрии для восточных языков
Если мы хотим применить стилометрию для восточных языков, то сразу же столкнёмся с проблемой: как посчитать слова, если текст не разделён пробелами? На помощь приходят парсеры — программы, которые содержат правила для какого-то конкретного языка, по которым можно разделить предложения на слова, а слова на морфемы. Можно написать свой парсер, а можно воспользоваться готовым. Например, в пакете stylo на языке R есть встроенный парсер на языков CJK (китайский, японский, корейский). Так, работая с японским текстом в stylo, достаточно выбрать CJK в настройках языка и деление на слова (а не символы, например), а затем можно запускать стилометрию.
Как Уэсака Аяка использовала стилометрию
Исследовательница Уэсака Аяка с помощью стилометрии поставила под сомнение теорию об авторстве «Повести о скоротечном пути Араси» (「嵐は無常物語」) Ихара Сайкаку (1642–1693) [2]. Повесть написана в 1688 году и считается первым художественным произведением о жизни актёра традиционного японского театра кабуки по имени Араси.
Ихара Сайкаку (1642–1693), японский поэт и прозаик. Источник: World History Encyclopedia
Ранее предполагали, что произведение принадлежит авторству Ихара Сайкаку, известного японского поэта и прозаика XVII века. Такой вывод сделали на основании сходства почерка и похожих орфографических ошибках в «Повести» и других работах Ихара Сайкаку. Но апеллировать к почерку было не вполне обоснованно, ведь Ихара Сайкаку не только создавал собственные тексты, но и переписывал работы других писателей. Кроме того, став известным ещё при жизни, Ихара многое писал под заказ, из-за чего его стиль мог измениться. Чтобы решить вопрос об авторстве «Повести о скоротечном пути Араси», исследовательница предложила количественный подход с применением стилометрии.
Фрагмент рукописи Сайкаку. Источник: [2]
Уэсака Аяка написала собственный парсер японского языка, оцифровала 120 работ Сайкаку, разделила их на слова и получила корпус из 710 355 токенов. Затем она собрала корпус размером 53 838 слов из трёх романов другого писателя того же периода — Ходзё Дансуй (1663–1711). Исследовательница также добавила в корпусы разметку по частям речи, которую использовала при кластеризации.
Ихара Сайкаку или не Ихара Сайкаку?
Первым шагом было определение значимых признаков, которые наиболее точно описывают стиль каждого автора, например, частеречная разметка и биграммы. Они были получены с помощью метода главных компонент (PCA). Затем, основываясь на этих признаках, Уэсака Аяка подтвердила авторство четырёх работ Сайкаку, опубликованных после его смерти. Авторство этих работ было под вопросом, потому что их публиковал Дансуй.
Результаты PCA для текстов Ихара Сайкаку и Ходзё Дансуй. Источник: [2]
Вторым шагом было определение авторства «Повести о скоротечном пути Араси». Исследовательница взяла десять самых значимых признаков из предыдущего шага и применила PCA и кластерный анализ к четырём романам Сайкаку, трём романам Дансуй и «Повести». Чтобы рассчитать расстояние между романами, Уэсака Аяка нормализовала частотные списки слов и применила расхождение Кульбака-Лейблера. Этот параметр позволяет оценить, насколько одно вероятностное распределение отличается от другого. Определить расстояние между текстами с помощью расхождения Кульбака-Лейблера означает определить разницу между частотным распределением слов этих текстов. Полученные результаты указывают на три кластера: четыре повести Сайкаку, три повести Дансуй и отдельно стоящая «Повесть о скоротечном пути Араси». Уэсака Аяка приходит к выводу, что на основании проведённого анализа нельзя дать однозначного ответа, кому принадлежит авторство «Повести», но можно точно сказать, что у «Повести» есть черты стиля как Сайкаку, так и Дансуй.
Источники
- Eder M., Rybicki J., Kestemont M. Stylometry with R: A Package for Computational Text Analysis [Электронный ресурс] // The R Journal. 2018. №8. Pp. 107–121. DOI: 10.32614/RJ-2016-007. URL: https://ruj.uj.edu.pl/server/api/core/bitstreams/93139665-577b-4320-ae65-16b13e9e53cb/content (дата обращения 13.06.2024).
- Uesaka A. Verifying the authorship of Saikaku Ihara’s Arashi Ha Mujyō Monogatari in early modern Japanese literature: a quantitative approach [Электронный ресурс] // Digital Humanites2017: Book of Abstracts. Montreal: McGill University and the Université de Montréal, 2017. Pp, 635–637. URL: https://dh2017.adho.org/abstracts/084/084.pdf (дата обращения 13.06.2024).