Филология

Цифровая филология — одно из направлений цифровых гуманитарных наук (Digital Humanities). В этой рубрике мы рассказываем о применении цифровых технологий в филологических исследованиях и цифровых филологических проектах. Мы пишем о стилометрии, сетевом анализе литературы, литературных корпусах и многом другом. Можно ли с помощью компьютера выделить из текста эмоции и события? А установить автора произведения, отделить его стиль от стиля переводчика и найти самого влиятельного героя пьесы? Узнайте в наших материалах!

Поясни за стиль. Какому поэту подражает нейросеть?

Цифровые филологи научились «измерять стиль»: у «Системного Блока» есть подборка статей о стилометрии и гайд о том, как провести собственное стилометрическое исследование. Нейросети зашли еще дальше: современные технологии уже позволяют выделять стиль текстов и даже подражать ему (об этом мы писали здесь). Сегодня мы расскажем о новом эксперименте Бориса Орехова, в котором исследователь оценивает, насколько хорошо модель может скопировать узнаваемый авторский стиль

Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru

Подкорпус Национального корпуса русского языка, в котором можно изучать ударения русских слов, содержит произведения поэтов-любителей с сайта Стихи.ру. Каким образом они могут быть полезны для науки — читайте в нашем материале

Шесть рукопожатий Владимира Маяковского

Представляем результаты авторского цифрового исследования: граф социальных связей персоналий Серебряного века на основе материалов проекта «Устная история». Центральная фигура — Владимир Маяковский.

Искусственный интеллект vs. феномен Владимира Набокова

Владимир Набоков известен тем, что писал и на русском, и на английском. Сможет ли компьютер распознать его оригинальный стиль? Этот вопрос исследовал цифровой филолог Борис Орехов. О том, как стилометрия при помощи статистики справляется с филологическими задачами – в материале «Системного Блока».

Голос(а) автора: может ли один человек писать как несколько?

Стилометрический анализ позволяет определить, принадлежат ли тексты одному и тому же автору. Но что если писатель творит под несколькими литературными масками, у каждой из которых есть индивидуальность? Рассказываем, как португалец Фернандо Пессоа и француз Ромен Гари «обманули» стилометрию — а ученые Борис Орехов и Даниил Скоринкин исследовали и визуализировали это.

Строить графы стало проще. Встречайте Gephi Lite

В апреле 2023 года разработчики самой популярной программы для сетевого анализа Gephi представили её веб-версию. Базовые функции сервиса теперь доступны в браузере, и пользоваться им стало гораздо проще.

Тест: какое будущее вам подходит?

Писатели-фантасты представляли будущее по-разному. Мы уже рассказывали о том, как им удалось предвидеть современные информационные технологии от мессенджеров до генеративных нейросетей. Теперь пришла ваша очередь подобрать себе грядущее по душе. Тест подскажет, какое будущее из фантастических книг разных столетий подойдет вам лучше всего.

Как хорошо вы знаете песни «Короля и Шута»?

Пройдите тест и узнайте, разбираетесь ли вы в творчестве «КиШ»а лучше «Системного Блока»!

От кыргызского эпоса до ChatGPT: что обсуждали на круглом столе «Digital Humanities в Центральной Азии» 

15 марта 2023 года прошёл круглый стол «Digital Humanities в Центральной Азии» — серия панельных дискуссий, на которых учёные из стран Центральной Азии обсудили цифровые гуманитарные исследования и проекты в регионе. Участница Системного Блока сходила на мероприятие и рассказывает, о чем там говорилось.

анализ персонажей войны и мир

500 героев в одной схеме: о чем говорит сетевой анализ «Войны и мира» 

Ранее мы рассказывали про цифровой анализ речи героев «Войны и мира». В этом материале с помощью сетевого анализа разбираемся, как взаимосвязаны персонажи эпопеи и кто из них «главнее»

Как провести стилометрический эксперимент с помощью stylo?

Системный Блокъ уже рассказывал о том, что такое стилометрия, и о многих стилометрических исследованиях. Читайте подробный гайд, как самому провести такой эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.

Гулливер и нейросети: интернет-банкинг и онлайн-торговля в произведениях писателей XVIII-XIX века

Фантастика часто предугадывает будущие достижения науки и техники. «Системный Блокъ» уже рассказывал, как русские писатели XIX века предсказали появление генеративных нейросетей, мессенджеров, соцсетей и компьютеров. Теперь посмотрим на предсказания зарубежных писателей: онлайн-торговлю, интернет-банкинг, дистанционное образование, искусственный интеллект и новостные агрегаторы.

Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети

Научная фантастика в русской литературе имеет давнюю историю. Писатели XIX и первой половины XX века предсказали многое: от телевидения до космических полетов. А насколько хорошо они предвидели современные информационные технологии? Удивительно, но современники Пушкина и Толстого смогли предсказать мессенджеры, генеративные нейросети, 3D-кино и что-то вроде интернета на Марсе.

Что говорит о персонажах «Войны и мира» их речь

Из уроков литературы мы помним долгие обсуждения монологов героев в «Войне и мире» Льва Толстого. Но что, если взглянуть на прямую речь персонажей под другим углом? Рассказываем, как цифровые методы анализа прямой речи персонажей помогают узнать, кто из героев ближе всех к светскому обществу, у кого самая «живая» и самая «сухая» речь, и в чем драматическое различие между речью Наташи Ростовой и Андрея Болконского.

Что такое взлиза и кто носил чаплыжку: цифровое «Слово Толстого»

23 ноября команда Tolstoy Digital запустила сайт «Слово Толстого» – первый цифровой путеводитель по необъятному наследию писателя

Chekhov Digital: как Чехов писал письма жене и куда течет время в его текстах

Знали ли вы, что слово «время» в произведениях А. П. Чехова имеет определенные схемы употребления, повторяющиеся от тома к тому? Могли ли подумать о том, что письма к любимой супруге Ольге Леонардовне драматург писал как к чужому человеку? Как связаны стили Чехова-писателя и Чехова-личности? Ответы на эти вопросы читайте в продолжении статьи о семантическом издании Chekhov Digital.

Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова

Каждый филолог желает знать, что такое семантическое издание. В этой статье мы расскажем вам об одном из них. В нем можно исследовать социальные сети Чехова и посмотреть, кого писатель упоминал в своей обширной переписке.

Стилометрия, сетевой анализ и золотой век испанской поэзии: Фернандо де Эррера как мост между мирами

Доказать авторство поэта, чей сборник стихов был издан уже после его смерти, – трудная задача. К счастью, стилометрия помогает разобраться в этом вопросе, а заодно понять эволюцию поэтического стиля в испанской поэзии раннего Нового времени. Рассказываем, как цифровая филология помогла исследователям глубже изучить, какую роль Фернандо де Эррера сыграл в искусстве XVI – XVII веков.

Кто скрывается за псевдонимом «Элена Ферранте»: стилометрия против мистификаций

Системный Блокъ много писал о стилометрии: об атрибуции и верификации авторства, анализе эмоций в песнях и стиля переводчика. Теперь на примере известного итальянского автора рассказываем, как стилометрия помогает раскрывать литературные мистификации.

Цифровое шекспироведение: драма в трех действиях

Человеку из XXI века может быть сложно понять социальные реалии, в которых создавались пьесы Шекспира. С помощью цифрового анализа исследователи выяснили особенности национальных, гендерных и других ролей, использованных автором. Разбираемся, каким языком пользовались кельты, женщины и обманщики в шекспировских пьесах.

«Метр и смысл» стихотворения: связь формы и содержания в европейской поэзии

Существует ли связь между стихотворным размером и тематикой стихотворения? Можно ли стихи, написанные одним размером, объединить в связанные по смыслу группы? Ищем ответы на эти вопросы в европейской поэзии с помощью тематического моделирования

Автор(ы) умер(ли), а проблемы остались

Продолжаем разгадывать вечную тайну «Беовульфа» и рассказывать о том, как цифровые филологи строят научный диалог в поисках правды.

«Заговори, чтобы я тебя увидел»: эволюция диалога в русской литературе XIX века

Литература как любая сложная система развивается и эволюционирует. Какие-то произведения остаются в центре внимания читателей на десятки и даже сотни лет, другие забываются сразу после издания. Так работает «литературная эволюция», модель которой начинал разрабатывать русский филолог Юрий Тынянов (подробнее об этом — в нашем прошлом материале). Применима ли эта концепция к отдельным частям произведения — например, к диалогу? Исследователи пытаются дать ответ на этот вопрос.

Вышел интерактивный учебник по Python для гуманитарных исследований

Первое полное пособие по использованию Python в гуманитарных науках доступно в онлайн-формате

Пушкинский дом обновил корпус нарративной прозы XIX века

С ноября 2021 года пользователям доступна вторая, улучшенная версия датасета.

Нейроцензура: генератор стихов Пушкина отказался писать о России, самовластье и царе

Бот «AI да Пушкин» дописывает любую предложенную ему фразу до четверостишия в стиле А.С. Пушкина — но только если в ней нет «запретных» слов

Пушкинский дом обновил Корпус текстов детской прозы

Институт русской литературы (Пушкинский дом) РАН пополнил ДетКорпус и сделал его доступным не только для онлайн-поиска, но и в качестве датасета

Как плести виртуальные сети с помощью Gephi

Gephi — самый известный инструмент для визуализации графов и сетевого анализа. С его помощью можно исследовать и население Викторианской Англии, и отношения героев «Войны и мира», и странички друзей Вконтакте. Рассказываем максимально просто, как пользоваться Gephi

Как Джордж Вашингтон стал эмо: Google N-grams в ТикТок трендах

Если вы были в ТикТок, то знаете, что тренд там можно сделать из чего угодно. Пару месяцев назад сотни тысяч просмотров начали набирать записи экрана с сайта Google Books Ngram Viewer, показывающем популярность слова в определенный период времени. Пользователи находят слово «эмо» в 1803 году или упоминание «Звёздных войн» — в 1696

Русские классики – сексисты или все-таки нет? Корпусный анализ текста Пушкина

В октябре «Системный блокъ» опубликовал корпусное исследование русской классики, в котором были проанализированы произведения школьной программы. Тогда в анализ текста Пушкина вошли «Евгений Онегин» и «Руслан и Людмила». Внимательные читатели заметили, что исследователи упустили не менее важные произведения классика – «Повести покойного Ивана Петровича Белкина» и «Капитанскую дочку», которые также входят в школьную программу. Мы посчитали такие замечания справедливыми и решили провести дополнительный анализ

Идеальная формула депрессивной песни на примере Radiohead

В наше время компьютер может работать практически с чем угодно, в том числе и с музыкой: существует множество методов как преобразовать её в формат, понятный компьютеру, так и проанализировать полученные данные по разным параметрам. В анализе песни текст не менее важен, чем мелодия. В этом материале мы расскажем, как с помощью цифровых методов можно измерить депрессивность вашей любимой песни.

Тайна стихов декабриста Батенькова: стилометрия на страже истины

Стилометрия — метод анализа текста, который сейчас проводится с помощью компьютеров и сложных вычислений. Благодаря современной стилометрии можно изучить не только стиль произведения, но и установить авторство текста. «Системный Блокъ» рассказывает об одном из самых крупных стилометрических расследований — о загадке стихов декабриста Батенькова.

Программа для поиска рифмы: как она работает и когда ломается

В 2018 году был разработан метод автоматической разметки рифм. В 2021 его автор представил RhymeTagger — общедоступную библиотеку на Python , которая позволяет вам анализировать рифмовку стихотворения. Рассказываем, как работает инструмент, и тестируем его на лесенках от Маяковского

Насколько хорошо вы знаете историю цифрового литературоведения?

Методы, которыми пользуются цифровые филологи, изобретены совсем недавно. Или так только кажется? Предлагаем вам пройти тест и узнать побольше об истории цифровой филологии и некоторых ее методах.

Нейросеть vs Стихи.ру: отличите ли вы живого поэта от электронного?

Нейросети давно научились писать стихи. Так ли сильно их произведения отличаются от человеческих? Сможете ли вы отличить текст с ресурса Стихи.ру от стихотворения нейросети, обученной на произведениях с этого сайта? Предлагаем пройти наш тест и узнать.

Набоков и Булгаков — сексисты? Корпусное исследование русской классики

Продолжаем рассказывать о том, как русские писатели описывали женщин и мужчин и можно ли измерить гендерное неравенство в литературе. В прошлый раз досталось Пушкину и Толстому, на этот раз смотрим на Набокова и Булгакова

Толстой и Пушкин — сексисты? Корпусное исследование русской классики

«Системный Блокъ» писал об исследованиях того, как по-разному мужчины и женщины описывались в литературе XIX и XX веков. Сегодня перейдем к русской классической литературе: как там описывали женщин и мужчин и видно ли гендерное неравенство. Рассказывают создательницы проекта «Толстой сексист? А Пушкин?»

DraCor и Programmable Corpora: корпуса для цифровых гуманитариев

Разбираемся, как работает DraCor — программируемый корпус текстов на 11-ти языках, с помощью которого можно прочитать пьесу, наглядно рассмотреть отношения между персонажами и даже поиграть в карточную игру

RhymeTagger: создан инструмент для автоматической разметки рифмы

Чешский цифровой стиховед Петр Плехач разработал и опубликовал библиотеку Python под названием rhymetagger, которая предназначена для поиска рифмы в стихотворениях. Разработанный алгоритм протестировали на текстах на английском, французском и чешском языках

нарратив

Флэшбеки, сны и встроенный нарратив: каким бывает повествование

Что такое нарратив и из чего складывается повествование? О способах конструировать сюжет рассказываем в новом материале

цифровой гуманитарий

Тест: какой вы цифровой гуманитарий?

Пройдите тест, который покажет, кто вы в мире цифровых гуманитарных исследований. А заодно — познакомьтесь с известными цифровыми гуманитариями.

паратекст

Окружён, но не сломлен: цифровой паратекст и его применение

Когда мы читаем книгу, то иногда отвлекаемся на нумерацию страниц, перечитываем оглавление или сравниваем обложку с содержанием. Так происходит, потому что все эти элементы являются паратекстом. О том, что означает этот термин и какие функции несёт, расскажем в нашей статье

Трансформация языка в Интернете: норма или преступление?

Под влиянием культурных и социальных условий наш язык трансформируется. В эпоху Интернета эти изменения происходят гораздо чаще, и принять их бывает трудно. Разбираемся, достоин ли «великий и могучий» русский язык называться таковым после языка падонкафф, где грань между лол и кек и почему нельзя повышать шрифт на кого попало

авторский текст

По словам их узнаете их: как вычисляли автора «Беовульфа»

Рассказываем, как одни ученые устанавливали авторство знаменитого древнеанглийского эпоса «Беовульф» при помощи статистики, а другие с ними спорили. Ведь научные споры цифровых филологов — это интересно!

Опубликован открытый корпус европейских романов

Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках

Sketch Engine и Маяковский. Часть II: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику

Sketch Engine и Маяковский. Часть I: человек до и после революции

Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту — корпусному менеджеру Sketch Engine и с его помощью проанализируем корпус текстов Владимира Маяковского.

Насколько предсказуема художественная литература?

Читать книги бывает долго и неинтересно. Иногда просто хочется узнать, что будет в конце. Рассказываем, может ли компьютер прочитать книжку за вас, и что он сумеет понять

Бэггинсы, Кольца и Сауроны: как научить компьютер понимать кто есть кто?

Как помочь компьютеру понять, что Гарри — волшебник, Гендальф — майар, а Джон Сноу — (СПОЙЛЕР!) одновременно Старк и Таргариен? Человек схватывает новую информацию на лету: из контекста, из интонации, из невербального общения. А как дать компьютеру такие же умения?

Джеймс против Джойса: вычислима ли сложность художественной литературы

Измерение сложности текста — задача для компьютерной лингвистики не новая, и в этой области многое уже придумано. Но применимо ли это для художественной литературы? Разбираемся на примере произведений американского писателя Генри Джеймса

Ресурсы для цифровых стиховедов: поэтические корпуса

Корпус — это собрание текстов в электронной форме, в котором можно осуществлять поиск. Важное отличие корпуса от электронной библиотеки — в корпусе всегда присутствует разметка. Корпуса бывают самыми разными, и мы уже рассказывали про литературные корпуса отдельных авторов. Расскажем еще об одном специальном типе литературных корпусов — поэтических корпусах

Цифровая филология 1910: как Андрей Белый вычислял отклонения ямба

Попытки применять точные методы в исследованиях стихотворений делались литературоведами задолго до возникновения компьютерных технологий и digital humanities. В начале XX века к точности в анализе поэтических текстов стремился русский поэт-символист Андрей Белый. Он одним из первых ввел в исследование стиха количественные методы

Чем питался Иоанн Креститель: анализ расхождений в Новом Завете

Тексты Нового Завета существуют в нескольких рукописных вариантах, которые имеют значительные различия между друг другом. Метод пространственного анализа позволяет предположить, какой вариант является исходным. Выясняем, чем же на самом деле питался Иоанн Креститель

Цифровой Ван Гог: на грани вечности

Некоторые знают об этом художнике благодаря легенде об отрезанном ухе. Другие вспоминают его единственную проданную картину «Подсолнухи». Есть те, кто вдохновляется его биографией и поиском призвания как автора. Все это о нём — о Винсенте Ван Гоге, который таинственно погиб ровно 130 лет во французской деревне Овер-сюр-Уаз

Эволюция литературы: может ли Дарвин объяснить Конан Дойла и футуризм

В отличие от биологии, в филологии нет общепринятой теории эволюции литературы. Никто до конца не понимает, почему одни книги оказываются в центре внимания и входят в канон, другие остаются неизвестными, а третьи переживают период славы, но быстро забываются. Но были (и есть) те, кто пытается адаптировать теорию эволюции к анализу словесности. Рассказываем о двух подходах к объяснению эволюции литературы, один из которых придумали русские филологи еще в начале XX века

Data Science против фейков: как алгоритм отделяет выдуманные новости от правды

Фейковые новости – острая проблема информационного общества. Они быстро распространяются через социальные сети, мессенджеры и СМИ, вводя людей в заблуждение. Это может привести к массовой дезинформации, манипуляциям и общественным кризисам

Лев Толстой онлайн: цифровые проекты о творчестве и жизни писателя

Каждый знакомится с литературным наследием Льва Толстого по-разному. Одни изучают его творчество одновременно с биографией, другие читают для себя, а третьи покоряют школьную программу. Часто одних текстов и критических статей бывает недостаточно. Сегодня с этой задачей помогают мультимедиа

«Живые страницы»: «Война и мир» в твоем смартфоне

Бывает так, что на уроках литературы очень сложно структурировать информацию объемных произведений — «Война и Мир», «Преступление и наказание» остаются для многих исключительно смутным воспоминаниями со скучных уроков литературы. Приходится ограничиваться поверхностной информацией о ключевых событиях, упуская важные и интересные моменты, которые помогли бы проникнуться романом и углубиться в его историю. Однако эта ситуация поправима — ведь есть интерактивное приложение «Живые страницы». Расскажем, как оно устроено

Байрон, Данте и Марк Твен: рассказываем про хорошие литературные корпуса

Что общего между рефлексирующим Данте, загадочным Байроном и неутомимым Твеном? Правильный ответ: у каждого из них есть свой цифровой литературный веб-корпус! Небольшой спойлер: интересно будет не только исследователям

Поясни за смайлик: смех и слезы в интернете

Рассказываем, как люди начали пользоваться эмотиконами — и как теперь их семантику изучают компьютерными методами. Посвящается тем, кто хотя бы раз не смог понять, что означает сообщение со смайликом