Читать нас в Telegram

Словари языка писателей существовали и до цифровой эпохи. Например, «Словарь языка Пушкина» содержит все слова (более 20 тысяч!), когда-либо использованные поэтом. Он создавался почти век и собирался вручную. Сегодня есть электронные корпуса. На сайте Национального корпуса русского языка можно сравнить тексты Пушкина с произведениями других авторов и увидеть, что особенного было в языке поэта. 

Cлова, которые встречаются только у одного автора, можно найти в большом массиве текстов методом извлечения ключевых слов TF-IDF. Если эти слова встречаются редко, человек легко может их пропустить, а вот компьютерный алгоритм заметит. Филолог Борис Орехов использовал этот статистический метод на материале текстов русских классиков из НКРЯ. Он нашёл редкие слова, характерные только для определённого писателя. 

Проверьте, сможете ли вы узнать классика всего по одному авторскому словечку! Многие из слов прижились, а смысл некоторых не так очевиден.