«Сон в красном тереме» («Хун лоу мэн») — один из самых знаменитых китайских классических романов, входящий в «Четыре великих романа Китая». В нем повествуется о двух ветвях богатой аристократической семьи Цзя и ее постепенном упадке.

Роман был написан в XVIII веке Цао Сюэцинем, и оригинальная версия содержит 80 частей. Но в 1791 году редакторы романа Гао Э и Чэн Вэйюань заявили, что они нашли потерянные рукописи Цао Сюэциня, и опубликовали новое издание из 120 частей. С того времени произошло множество дискуссий о том, сколько авторов у «Сна в красном тереме». Многие исследователи видят в последних 40 частях более позднее дополнение. Широко распространена точка зрения, что их автором является Гао Э.

Согласно большинству современных исследований, «Сон в красном тереме» написан двумя авторами. Из данных также можно предположить, что главы под номерами 64 и 67 могут быть написаны не Цао.

Метод Дельты Бёрроуза

Как это работает? Математическое обоснование и описание на русском можно найти здесь.

Метод Дельты Бёрроуза довольно часто применяется для установления или уточнения авторства произведений. Отбирают некоторое количество значимых слов, далее для всех них нужно найти среднюю разницу между стандартными оценками каждого слова в этих текстах. Оценка — это частота по тексту минус средняя частота по всей коллекции. Все это делится на среднее отклонение от стандартной частоты. Это позволяет посчитать многомерное расстояние между текстами, и чем оно меньше, тем более похожи эти тексты.

Как дополнение к этому методу часто используют алгоритмы кластеризации, позволяющие представить результат в виде дендрограммы.

На полученных дендрограммах красным цветом обозначены первые 80 глав, а зеленым — последние 40. Красные и зеленые главы в целом составляют два отдельных кластера и объединяются только на последнем шаге, то есть наименее схожи, что говорит в пользу гипотезы, согласно которой они были написаны разными авторами. Но из этого есть исключение: главы 10 и 11, а также 6 и 67 (из первой части) объединяются на первом шаге друг с другом, а уже на втором — с главами второй части, то есть по методу Дельты Бёрроуза эти тексты похожи.

Почему так могло случиться? Вот несколько предположений. Во-первых, результат Дельты может быть не настолько точен. Во-вторых, возможно, в этих главах содержится много имен собственных и связанных с каким-то сюжетом слов, которые есть и в последних главах. В-третьих, они могут действительно стилистически отличаться от большей части первых 80 глав, и использование слов, не связанных с каким-то конкретным сюжетом, может указывать на то, что они написаны или хотя бы отредактированы вторым автором. Эти предположения можно попробовать проверить с помощью тематического моделирования.

Тематическое моделирование

Как это работает? В Системном Блоке недавно вышла статья об основных принципах тематического моделирования.

Для исследования и проверки результата Дельты с помощью тематического моделирования была использована версия «Сна в красном тереме», которая считается наиболее близкой к ранним изданиям. На этапе предварительной обработки были проведены токенизация и разделение. Для текстов на китайском языке это необходимо, чтобы разделить текст на слова, так как границы слов не обозначены пробелами. Но такие инструменты, как Stanford Chinese Word Segmenter, могут использоваться только для современного китайского: их стандарты разделения не подходят для классического. Поэтому в качестве «слов» были выбраны биграммы символов (иероглифов). Разбиение текста позволяет тщательнее изучить отношения между словами, поэтому текст был разделен на части по 500 биграмм каждая.

Можно уже выделять темы? Нет, так как в них попадет много слов, характерных для любой из частей. Сначала необходимо сформировать список из стоп-слов — тех слов, что будут выделены в тему при обработке текста с помощью MALLET, но при этом их нельзя будет интерпретировать.

Для этого с помощью MALLET текст обработали один раз и выделили некоторое количество тем. В этих темах было некоторое количество верных биграмм-слов, а также значительный объем не имеющих значения биграмм вроде «облака», «улыбка». Из результатов был составлен список стоп-слов, включающий эти незначимые биграммы, имена собственные и служебные слова вроде «то», «это» или «нужно».

Наконец, подготовка закончена. Текст романа разделен на слова и удобные для обработки части, и из анализа исключено то, что нельзя было бы интерпретировать. После этого был запущен MALLET для выделения 50 тем. Выходные данные были сведены в соответствии с главами так, как их разбили на части на этапе предварительной обработки. Потом была создана визуализация соотношения тем с главами. Красная линия разделяет первые 80 частей и последние 40, по оси X — темы, по оси Y — главы. Наибольший интерес представляет тема 26: она связана с последними 40 главами, а в первых 80 главах проявляется как раз в 11-й и 67-й — тех, что, по результатам Дельты Бёрроуза, могли быть отредактированы вторым автором.

Далее было подсчитано распределение слов внутри темы. Вот топ-20 слов с их ненормализованными весами:

357.0 госпожа (тайтай, 太太); 246.0 возвращаться (хуйлай, 回來); 233.0 пришёл (лайла, 來了); 218.0 служанка (ятоу, 丫頭); 190.0 подходить (голай, 過來); 184.0 отвечать (даин, 答應); 146.0 увидеть (чжицзянь , 只見); 125.0 ступай! (цюйба , 去罷); 122.0 время (шихоу , 時候); 114.0 звать кого-то (цзяожэнь , 叫人); 108.0 выходить (чулай , 出來); 101.0 речь (яньюй , 言語); 100.0 рассказывать (гаосу , 告訴); 98.0 сегодня (цзиньжи , 今日); 98.0 разговор (хуар , 話兒); 95.0 видеть (каньцзянь , 看見); 92.0 отвечать (хуйдао , 回道); 91.0 там (набянь , 那邊); 91.0 поспешно (ляньман , 連忙); 85.0 думать о чем-то (сянци , 想起)

Как видно из списка, это не названия или имена собственные, и слова не связаны с каким-либо определенным мотивом, который характерен только для этих глав. Все эти слова могут быть представлены в сцене взаимодействия дамы и девочки-прислужницы. «Сон в красном тереме» — роман-наблюдение за жизнью китайского общества XVIII века, это история о жизни двух больших и состоятельных семей, а значит, такие сцены распределены во всем романе.

Итак, тематическое моделирование было использовано здесь для того, чтобы выделить те темы, которые отличают последние 40 глав и отредактированные главы 11 и 67 от остального текста романа. Каковы результаты? Во-первых, эти главы действительно отличаются от остальных, и это не погрешность метода Дельты Бёрроуза. Во-вторых, отличаются они не из-за какого-то присутствующего только в них сюжета или имен персонажей — это стилистические отличия. Значит, с большой вероятностью эти главы, 11 и 67, написаны или отредактированы автором последних 40.

Подробнее: