Филология

Цифровая филология — одно из направлений цифровых гуманитарных наук (Digital Humanities). В этой рубрике мы рассказываем о применении цифровых технологий в филологических исследованиях и цифровых филологических проектах. Мы пишем о стилометрии, сетевом анализе литературы, литературных корпусах и многом другом. Можно ли с помощью компьютера выделить из текста эмоции и события? А установить автора произведения, отделить его стиль от стиля переводчика и найти самого влиятельного героя пьесы? Узнайте в наших материалах!

Тайна стихов декабриста Батенькова: стилометрия на страже истины

Стилометрия — метод анализа текста, который сейчас проводится с помощью компьютеров и сложных вычислений. Благодаря современной стилометрии можно изучить не только стиль произведения, но и установить авторство текста. «Системный Блокъ» рассказывает об одном из самых крупных стилометрических расследований — о загадке стихов декабриста Батенькова.

Программа для поиска рифмы: как она работает и когда ломается

В 2018 году был разработан метод автоматической разметки рифм. В 2021 его автор представил RhymeTagger — общедоступную библиотеку на Python , которая позволяет вам анализировать рифмовку стихотворения. Рассказываем, как работает инструмент, и тестируем его на лесенках от Маяковского

Насколько хорошо вы знаете историю цифрового литературоведения?

Методы, которыми пользуются цифровые филологи, изобретены совсем недавно. Или так только кажется? Предлагаем вам пройти тест и узнать побольше об истории цифровой филологии и некоторых ее методах.

Нейросеть vs Стихи.ру: отличите ли вы живого поэта от электронного?

Нейросети давно научились писать стихи. Так ли сильно их произведения отличаются от человеческих? Сможете ли вы отличить текст с ресурса Стихи.ру от стихотворения нейросети, обученной на произведениях с этого сайта? Предлагаем пройти наш тест и узнать.

Набоков и Булгаков — сексисты? Корпусное исследование русской классики

Продолжаем рассказывать о том, как русские писатели описывали женщин и мужчин и можно ли измерить гендерное неравенство в литературе. В прошлый раз досталось Пушкину и Толстому, на этот раз смотрим на Набокова и Булгакова

Толстой и Пушкин — сексисты? Корпусное исследование русской классики

«Системный Блокъ» писал об исследованиях того, как по-разному мужчины и женщины описывались в литературе XIX и XX веков. Сегодня перейдем к русской классической литературе: как там описывали женщин и мужчин и видно ли гендерное неравенство. Рассказывают создательницы проекта «Толстой сексист? А Пушкин?»

DraCor и Programmable Corpora: корпуса для цифровых гуманитариев

Разбираемся, как работает DraCor — программируемый корпус текстов на 11-ти языках, с помощью которого можно прочитать пьесу, наглядно рассмотреть отношения между персонажами и даже поиграть в карточную игру

RhymeTagger: создан инструмент для автоматической разметки рифмы

Чешский цифровой стиховед Петр Плехач разработал и опубликовал библиотеку Python под названием rhymetagger, которая предназначена для поиска рифмы в стихотворениях. Разработанный алгоритм протестировали на текстах на английском, французском и чешском языках

нарратив

Флэшбеки, сны и встроенный нарратив: каким бывает повествование

Что такое нарратив и из чего складывается повествование? О способах конструировать сюжет рассказываем в новом материале

цифровой гуманитарий

Тест: какой вы цифровой гуманитарий?

Пройдите тест, который покажет, кто вы в мире цифровых гуманитарных исследований. А заодно — познакомьтесь с известными цифровыми гуманитариями.

паратекст

Окружён, но не сломлен: цифровой паратекст и его применение

Когда мы читаем книгу, то иногда отвлекаемся на нумерацию страниц, перечитываем оглавление или сравниваем обложку с содержанием. Так происходит, потому что все эти элементы являются паратекстом. О том, что означает этот термин и какие функции несёт, расскажем в нашей статье

Трансформация языка в Интернете: норма или преступление?

Под влиянием культурных и социальных условий наш язык трансформируется. В эпоху Интернета эти изменения происходят гораздо чаще, и принять их бывает трудно. Разбираемся, достоин ли «великий и могучий» русский язык называться таковым после языка падонкафф, где грань между лол и кек и почему нельзя повышать шрифт на кого попало

авторский текст

По словам их узнаете их: как вычисляли автора «Беовульфа»

Рассказываем, как одни ученые устанавливали авторство знаменитого древнеанглийского эпоса «Беовульф» при помощи статистики, а другие с ними спорили. Ведь научные споры цифровых филологов — это интересно!

Опубликован открытый корпус европейских романов

Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках

Sketch Engine и Маяковский. Часть II: «несоветский» поэт Революции

Продолжаем серию постов о применении Sketch Engine в цифровой филологии. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику

Sketch Engine и Маяковский. Часть I: человек до и после революции

Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту — корпусному менеджеру Sketch Engine и с его помощью проанализируем корпус текстов Владимира Маяковского.

Насколько предсказуема художественная литература?

Читать книги бывает долго и неинтересно. Иногда просто хочется узнать, что будет в конце. Рассказываем, может ли компьютер прочитать книжку за вас, и что он сумеет понять

Бэггинсы, Кольца и Сауроны: как научить компьютер понимать кто есть кто?

Как помочь компьютеру понять, что Гарри — волшебник, Гендальф — майар, а Джон Сноу — (СПОЙЛЕР!) одновременно Старк и Таргариен? Человек схватывает новую информацию на лету: из контекста, из интонации, из невербального общения. А как дать компьютеру такие же умения?

Джеймс против Джойса: вычислима ли сложность художественной литературы

Измерение сложности текста — задача для компьютерной лингвистики не новая, и в этой области многое уже придумано. Но применимо ли это для художественной литературы? Разбираемся на примере произведений американского писателя Генри Джеймса

Ресурсы для цифровых стиховедов: поэтические корпуса

Корпус — это собрание текстов в электронной форме, в котором можно осуществлять поиск. Важное отличие корпуса от электронной библиотеки — в корпусе всегда присутствует разметка. Корпуса бывают самыми разными, и мы уже рассказывали про литературные корпуса отдельных авторов. Расскажем еще об одном специальном типе литературных корпусов — поэтических корпусах

Цифровая филология 1910: как Андрей Белый вычислял отклонения ямба

Попытки применять точные методы в исследованиях стихотворений делались литературоведами задолго до возникновения компьютерных технологий и digital humanities. В начале XX века к точности в анализе поэтических текстов стремился русский поэт-символист Андрей Белый. Он одним из первых ввел в исследование стиха количественные методы

Чем питался Иоанн Креститель: анализ расхождений в Новом Завете

Тексты Нового Завета существуют в нескольких рукописных вариантах, которые имеют значительные различия между друг другом. Метод пространственного анализа позволяет предположить, какой вариант является исходным. Выясняем, чем же на самом деле питался Иоанн Креститель

Цифровой Ван Гог: на грани вечности

Некоторые знают об этом художнике благодаря легенде об отрезанном ухе. Другие вспоминают его единственную проданную картину «Подсолнухи». Есть те, кто вдохновляется его биографией и поиском призвания как автора. Все это о нём — о Винсенте Ван Гоге, который таинственно погиб ровно 130 лет во французской деревне Овер-сюр-Уаз

Эволюция литературы: может ли Дарвин объяснить Конан Дойла и футуризм

В отличие от биологии, в филологии нет общепринятой теории эволюции литературы. Никто до конца не понимает, почему одни книги оказываются в центре внимания и входят в канон, другие остаются неизвестными, а третьи переживают период славы, но быстро забываются. Но были (и есть) те, кто пытается адаптировать теорию эволюции к анализу словесности. Рассказываем о двух подходах к объяснению эволюции литературы, один из которых придумали русские филологи еще в начале XX века

Data Science против фейков: как алгоритм отделяет выдуманные новости от правды

Фейковые новости – острая проблема информационного общества. Они быстро распространяются через социальные сети, мессенджеры и СМИ, вводя людей в заблуждение. Это может привести к массовой дезинформации, манипуляциям и общественным кризисам

Лев Толстой онлайн: цифровые проекты о творчестве и жизни писателя

Каждый знакомится с литературным наследием Льва Толстого по-разному. Одни изучают его творчество одновременно с биографией, другие читают для себя, а третьи покоряют школьную программу. Часто одних текстов и критических статей бывает недостаточно. Сегодня с этой задачей помогают мультимедиа

«Живые страницы»: «Война и мир» в твоем смартфоне

Бывает так, что на уроках литературы очень сложно структурировать информацию объемных произведений — «Война и Мир», «Преступление и наказание» остаются для многих исключительно смутным воспоминаниями со скучных уроков литературы. Приходится ограничиваться поверхностной информацией о ключевых событиях, упуская важные и интересные моменты, которые помогли бы проникнуться романом и углубиться в его историю. Однако эта ситуация поправима — ведь есть интерактивное приложение «Живые страницы». Расскажем, как оно устроено

Байрон, Данте и Марк Твен: рассказываем про хорошие литературные корпуса

Что общего между рефлексирующим Данте, загадочным Байроном и неутомимым Твеном? Правильный ответ: у каждого из них есть свой цифровой литературный веб-корпус! Небольшой спойлер: интересно будет не только исследователям

Поясни за смайлик: смех и слезы в интернете

Рассказываем, как люди начали пользоваться эмотиконами — и как теперь их семантику изучают компьютерными методами. Посвящается тем, кто хотя бы раз не смог понять, что означает сообщение со смайликом

Как измеряют эффект Вертера

Но не тот, о котором вы подумали. Мы расскажем не о последствиях трагической любви, которые заставляют молодых людей с разбитым сердцем сводить счеты с жизнью, а о том, как «Страдания юного Вертера» перекликаются с окружающими его текстами

Как менялись песни Битлов и можно ли вычислить эмоции компьютерными методами?

От She Loves You до She’s So Heavy: как психологи исследовали композиции Beatles цифровыми методами и ранжировали их от радостных — до депрессивных

Вся классика в один клик: как выделить из текста события

Школьники, зависающие на сайтах с краткими содержаниями, многое бы отдали за чудо-ресурс, которому можно было бы отдать какое-нибудь художественное произведение и получить взамен описание событий в тексте. Возможно, в скором будущем их мечта воплотится в реальность. Рассказываем, как работает технология извлечения событий из художественных текстов — и что она позволяет узнать о литературе уже сейчас

Все переплетено: как распутать социальную сеть раввинской литературы

Что может рассказать об истории иудаизма социальная сеть мудрецов которые четыре века только и делали, что спорили?

Есть ли стиль у переводчика? А если найдем?

Как инструменты стилометрии помогают исследовать относительную силу стилистического отпечатка автора и переводчика в художественном тексте

Искусственный интеллект тренируется на сказках

Как научить машину увлекательно пересказывать тексты, и чем здесь могут помочь Герои и Злодеи из разных сказок, а также великий фольклорист Владимир Пропп

Краудсорсинг в Digital Humanities: опыт Латвийского фольклорного архива

Рассказываем, как фольклорному архиву Латвии удалось привлечь тысячи волонтеров к оцифровке и обогащению своих электронных коллекций, а также почему это может быть полезно другим странам

ОТСТАВНОЙ КОЗЫ ПРОДЮСЕР: генерируем названия книг Дарьи Донцовой

Как генерировать названия детективов в стиле Донцовой с помощью списка фразеологизмов, семантических векторов и морфологического анализатора

Многомерное «Слово о полку Игореве»: от кукушки до алкогольного брендинга

Когда мобильный интернет был экзотикой, а отчёты по грантам сдавали на 3,5-дюймовых дискетах... в Рунете уже были цифровые гуманитарные проекты! Рассказываем в лицах и деталях об одном из них — о параллельном корпусе переводов поэмы «Слово о полку Игореве», которая отметила 13-летие. В конце поста бонус — обзор исследований на основе корпуса

«Шахерезада»: робот, рассказывающий истории

Разбираемся, как работает алгоритм генерации историй «Шахерезада»

Сети Чехова: откуда вырос «Вишневый сад»

А.П. Чехов переизобрел драматический театр. Его роль в истории драматургии сравнима с ролью Эйнштейна в физике и Джобса — в мобильной электронике. В день 160-летия Чехова рассказываем о том, как посмотреть на его творчество через цифровую оптику — и что может дать такой взгляд.

Код «Мастера и Маргариты»

Как устроен шедевр Булгакова: анализируем роман «Мастер и Маргарита» с помощью методов цифрового литературоведения

Компьютер нашёл автора пьес Мольера (спойлер: это Мольер)

Статистика дает ответ на вопрос, который давно волнует исследователей классической французской литературы: писал ли Мольер свои произведения, или за него все сделал Корнель?

Нейросеть помогла ученым разгадать античные тексты

Алгоритм умеет восстанавливать надписи, сделанные несколько тысяч лет назад — и, как утверждают создатели, делает это быстрее, чем профессиональные исследователи эпиграфисты

Соцсети русской драмы, часть II Ревизор vs. Городничий: кто же главный герой?

Как, сколько и с кем общаться, чтобы стать по-настоящему главным героем пьесы — отвечает математика

Когнитивная стилистика и образование речи

Никогда не задумывались, как мы строим предложения? Конечно, нет, это невозможно. Молодая наука когнитивная стилистика объясняет, почему

Цветокоррекции в стихах Сергея Есенина

Поэзия — цветной вид искусства. В отличие от фотографии и кино, она никогда не была черно-белой. Поэты в своем творчестве окрашивают не только физические объекты, но и запахи, звуки, тактильные ощущения… А можно ли исследовать цветовую картину мира отдельного поэта с помощью цифровых методов?

Разделяй и определяй, или Кто автор «Сна в красном тереме»

Как метод Дельты Бёрроуза и тематическое моделирование помогают решить проблему атрибуции текста

Соцсети русской драмы, часть I: основы сетевого анализа

Сегодня модно исследовать художественную литературу методами анализа социальных сетей. Мы начинаем серию постов по сетевому анализу русской драматургии. В первом посте мы расскажем, как сетевой анализ позволяет посчитать «влиятельность» литературного героя

Красота и божественная слава: статистический анализ Корана

Исследование священных текстов с помощью методов автоматической обработки языка и статистики — то, с чего начались современные Digital Humanities. Сегодня статистика применяется для анализа священных текстов разных религиозных традиций, в том числе исламской. Публикуем перевод недавней работы, где анализируется соотношение божественных черт в Коране

Биты или манускрипт: кто выживет в борьбе со временем?

Так ли просто сохранять цифровые объекты? Как это делают сейчас? Чем озадачены ученые всего мира? Немного простых ответов на сложные вопросы современности

Тест Тьюринга для киберпоэтов

Как обычный «слепой тест» по отделению машинной поэзии от той, что написана людьми, приводит ученых к философскому спору об относительности понятия «человека» в искусстве

Что случилось с самыми унылыми стихотворениями XIX века

Элегия — ключевой поэтический жанр «‎золотого века» русской поэзии. Что можно узнать о нем, используя количественные методы, такие как подсчет статистики словоупотреблений, тематическое моделирование, регрессионный анализ длины стихотворений? Рассказывает филолог Тоня Мартыненко (Тартуский университет)

Странные языки

Чем английский необычнее венгерского? Лингвисты вычислили странность 239 языков мира и составили рейтинг

Интерфейс как посредник

Чем является интерфейс для цифрового гуманитария? Всегда ли он должен быть простым? Должен ли ученый понимать, что происходит «там под капотом»? Разбираемся с помощью акторно-сетевой теории

Электронный след Анны Ахматовой

Учимся визуализировать открытые геоданные на примере Ахматовских мест в Москве. К 130-летию Анны Ахматовой.

В начале было слово... а в конце его уже не было

Почему в начале английского романа ты должен пообедать, а в конце жениться... или умереть? Рассказываем, когда у мистера Дарси наступает кризис среднего возраста, Оливер Твист превращается из мальчика в тинейджера, а главное, при чем тут ключевые слова и как они могут влиять на структуру романного сюжета?

Гендерные трудности английской литературы

За двести пятьдесят лет положение женщин в обществе изменилось, и эти изменения затронули не только реальную жизнь, но и книжное пространство. Как изменялось место женщины в литературе как автора и персонажа? Возможно ли определить пол героя по его описанию? И, наконец, существует ли мужская и женская литература?

Путешествие во времени с рентгеном и нейросетями

Как цифровые методы помогают читать средневековые тексты в запечатанных конвертах и внутри закрытых книг

100 лет фантастики в цифрах

Когда фантасты начали писать про искусственный интеллект и магический феминизм и разлюбили инопланетян?