Читать нас в Telegram
Иллюстрация: Алёна Овчинникова

О словах и людях

Представьте, что кто-то подходит к вам и говорит: «Я тебя обожаю». Это хорошо или плохо? На первый взгляд будто бы хорошо — в нашем представлении слово «обожаю» может быть связано, например, со словами «люблю» или «нравишься». Но что, если этот гипотетический кто-то — герой Толстого? Возможно, ситуация изменится.

Стиль писателя, даже классика из школьного учебника, не равнозначен усреднённому русскому языку. Особенно хорошо это заметно на примере поэтических текстов — индивидуальные особенности автора проявляются и в небольших стихах, их удобно изучать даже методами ручного анализа.

Но как определить, чем «обожание» в текстах Толстого отличается от обычного «обожания», если вдумчиво проследить контекст в 90-томнике писателя невозможно? На помощь приходят векторно-семантические модели, которые филолог Борис Орехов использовал в своем исследовании «Индивидуальная семантика Л. Н. Толстого в свете векторных моделей».

Каков твой друг, таков и ты

Еще в середине XX века лингвисты предположили, что слова, употребляемые в одних и тех же контекстах, могут быть близки семантически. В 2010-х годах появились эффективные способы компьютерного моделирования контекстов в векторном пространстве. Теперь с их помощью можно понять, какие слова в корпусе текстов находятся ближе всего друг к другу. 

При этом такие слова — не всегда синонимы. К примеру, близкими могут оказаться «понедельник» и «среда», которые являются частными примерами понятия «день недели». Такие слова называют когипонимами, а сам «день недели» будет в этом случае гиперонимом. Близки могут быть и антонимы — порой в векторном пространстве от любви до ненависти действительно один шаг.

Корпус, на котором обучалась модель, тоже важен для подбора близких слов. Например, у слова «конь» могут быть такие соседи, как «свинья», «кобыла» и «бык» в корпусе о животноводстве, или такие, как «ферзь» и «слон» — в корпусе о шахматах.

Векторный Толстой

Для того, чтобы найти отличия между текстами Толстого и «обычным» русским языком, использовались две векторно-семантических модели. Первая была обучена на 90-томнике Толстого, вторая — на Национальном корпусе русского языка.

Посмотрим на топ-10 ближайших соседей слова «любить» для обеих моделей. Здесь, кстати, хорошо заметно, что это не обязательно синонимы или даже слова одной части речи. Жирным шрифтом выделены слова, присутствующие в обоих списках.

ТолстойНКРЯ
1. полюбить 1. обожать 
2. уважать2. полюбить
3. ненавидеть3. любить NOUN
4. страстно4. уважать
5. любящий5. нравиться
6. ценить6. ненавидеть
7. презирать 7. любимый
8. дорожить8. любить ADJ
9. ближний9. боготворить
10. жалеть10. презирать

Соседи слова «любить» в 90-томнике Толстого и НКРЯ

Мы видим, что в НКРЯ слово «любить» присутствует в грамматической интерпретации существительного (NOUN) и прилагательного (ADJ). Это может быть вызвано ошибками автоматического морфологического анализа при обработке текстов корпуса.

Автор исследования обращает внимание на то, что слова «обожать» и «боготворить», указанные в НКРЯ, в 90-томнике отсутствуют. Возможно, это связано с тем, что у Толстого «обожание» и «боготворение» противопоставляются истинной любви, хотя обычно эти слова такой спецификой не обладают.

Зыбкость обожания подчёркивается в романе «Воскресение»: 

«— Ничего нет ужасного, — сказал Новодворов, прислушивавшийся к разговору. — Массы всегда обожают только власть, — сказал он своим трещащим голосом. — Правительство властвует — они обожают его и ненавидят нас; завтра мы будем во власти — они будут обожать нас…»

А слово «боготворит» используется в ироническом контексте в повести «Хаджи-Мурат»: 

«Девушка эта рассказала Николаю, как она с детства ещё, по портретам, влюбилась в него, боготворила его и решила во что бы то ни стало добиться его внимания».

Таким образом, если «любовь» для Толстого — любовь истинная, то для описания ложной любви он использует иные лексемы.

Баталии или деревня?

Еще одна задача исследования — определить соседей слова «поле» в текстах Толстого. Это весьма интересная задача, поскольку концепция аграрного труда («работа в поле») для писателя не менее важна, чем масштабные сражения («поле боя»).

Соседи слова «поле» в произведениях Толстого

На рисунке видно, что ближайшими соседями слова «поле» являются компоненты пейзажа («лес», «луг») и сельские термины («пахота», «засевать», «пашня»). Можно сделать вывод, что батальная семантика не является ведущей для идиостиля Толстого.

Здесь также стоит упомянуть эпизод из романа «Война и мир», который примечателен тем, что Толстой даже в батальной сцене обращает внимание на «сельский» элемент:

«Князь Андрей точно так же, как и все люди полка, нахмуренный и бледный, ходил взад и вперёд по лугу подле овсяного поля от одной межи до другой, заложив назад руки и опустив голову. Делать и приказывать ему нечего было. Всё делалось само собою. Убитых оттаскивали за фронт, раненых относили, ряды смыкались. Ежели отбегали солдаты, то они тотчас же поспешно возвращались».

Сложности становятся возможностями

Исследование Бориса Орехова показало, что многие привычные нам понятия приобрели у Толстого своё, особое значение. Кроме того, мы видим, что векторно-семантические модели действительно могут быть полезны для изучения идиостиля писателя. 

Раньше полностью проанализировать тексты Толстого было практически невозможно ввиду невероятного объёма этих текстов. Теперь благодаря машинным методам такая возможность наконец появилась.

Источник: Орехов Б.В. Индивидуальная семантика Л. Н. Толстого в свете векторных моделей [Электронный ресурс] // Terra Linguistica. 2023. Т. 14. № 4. С. 119–129. DOI: 10.18721/JHSS.14409. URL: https://human.spbstu.ru/article/2023.54.9/ (дата обращения: 10.01.2024)