Филология

Цифровая филология — одно из направлений цифровых гуманитарных наук (Digital Humanities). В этой рубрике мы рассказываем о применении цифровых технологий в филологических исследованиях и цифровых филологических проектах. Мы пишем о стилометрии, сетевом анализе литературы, литературных корпусах и многом другом. Можно ли с помощью компьютера выделить из текста эмоции и события? А установить автора произведения, отделить его стиль от стиля переводчика и найти самого влиятельного героя пьесы? Узнайте в наших материалах!

Как создавать расшифровки аудиозаписей в программе ELAN

У вас есть аудиофайл от информанта и вам его нужно расшифровать? Возможно, вы пытаетесь при этом жонглировать несколькими программами сразу: у вас открыты медиаплеер, в котором вы слушаете звук, текстовый файл, в который вы записываете транскрипцию, мессенджер, в котором вы видите корректировки от руководителя. Но расшифровку можно сделать гораздо быстрее и удобнее — с помощью программы ELAN, которая была создана как раз для аннотирования звуковых и видеофайлов.

Цвет антиутопии зелёный: цифровая рецензия на роман «Радио Мартын»

Сегодня гуманитарии стремительно осваивают цифровой мир и уже совсем по-другому смотрят на литературные произведения. В этой статье мы проанализировали книгу Филиппа Дзядко «Радио Мартын» с помощью языка программирования R и отразили в цифрах уникальность авторского стиля писателя

Понять Льва Толстого: как векторно-семантические модели помогают литературоведам

Идиостиль — это авторский стиль писателя. И если на небольших стихах его изучать удобно, то вот на текстах Льва Толстого — очень непросто. Рассказываем, как филолог Борис Орехов использует векторно-семантические модели для анализа идиостиля Толстого.

Кто какую часть произведения написал? Выясняем с помощью Stylo

«‎Системный Блокъ» уже рассказывал, что такое стилометрия, и как сделать её своими руками с помощью библиотеки Stylo на языке программирования R. В новом гайде мы познакомим вас с функцией rolling.classify(), которая может помочь в исследований произведений, написанных в соавторстве.

Перестаньте читать книги и начните их анализировать: тест про дальнее чтение

Пройдите тест и узнайте, какую информацию можно получить из корпусов художественных текстов с помощью дальнего чтения.

Краш-тест для любителей дешёвых драм

Применить цифровые технологии к пьесам Шекспира? Да легко! Если вы хотите проанализировать связи между персонажами драматических текстов, то в этом вам поможет интернет-ресурс DraCor. Пройдите наш тест и проверьте, насколько хорошо вы знаете, как работает DraCor!

Жизнь стала чёрно-белой: как менялся язык поэзии Сильвии Плат

Сильвия Плат — американская поэтесса, основательница жанра «исповедальной поэзии». Ее жизнь была коротка (30 лет) и трагична, и эволюция творчества Плат отражает эту печальную динамику. Рассказываем, как менялись цвета и другие составляющие поэзии Сильвии Плат

Стилометрия древнегреческих текстов: работает ли Дельта — и что кроме нее

Стилометрия — количественный метод определения авторства, который проверен на десятках современных языков. А что там с языками древними? Историк философии Ольга Алиева исследовала, как работает Дельта и другие стилометрические меры на древнегреческих текстах. Разбираемся вместе с ней, может ли стилометрия отличить Аристотеля от Платона, а Геродота от Плутарха.

Кто вы для Чехова? Тест на основе писем классика

Друг, жена, а может быть, сестра? Пройдите тест и узнайте, какое письмо отправил бы вам Антон Павлович

«С экзамена в тюрьму с ChatGPT»: чей рассказ лучше, нейросети или писателя?

Еще до появления нашумевшей ChatGPT нейросети генерировали связные тексты на разные темы и в разных жанрах. Сейчас с помощью больших языковых моделей (LLM) можно написать мотивационное письмо, оригинальный рецепт вареников, диплом… и даже художественное произведение. Но правда ли, что нейросети скоро заменят живых писателей, или людям пока не о чем беспокоиться? Мы решили провести эксперимент при участии писателя Александра Сорге

Как это (не) работает: технологии нейросети-писателя

Как научить нейросеть писать в стиле Набокова? И насколько хорошо (или плохо) у нейросетей вообще получается писать художественные тексты? Могут ли нейросети привести филологов к мировому господству? Ответы на эти и другие вопросы нам дали цифровой филолог Борис Орехов и исследователь в области глубинного обучения Михаил Ким.

Как писать художественные тексты с ChatGPT и не облажаться: советы редактора

Может ли нейросеть заменить писателя? И да и нет. Есть творческие задачи, с которыми современные языковые модели справляются легко: например, стилизовать сказку под триллер, а трагедию Шекспира — под дворовую байку. Но есть многое, в чем им нужна помощь или хотя бы руководство человека. Разбираемся, какие литературные задачи можно делегировать ChatGPT, а какие пока не стоит.

Вы Лев Толстой на словах или на деле? Викторина по редким словам из корпуса текстов писателя

Кого Лев Толстой называл голышом и где в усадьбе тырла? Кем лучше быть ― келарем или щелкопёром? Писатель был знатоком редких и диковинных слов. Пройдите наш тест и попробуйте отгадать их значения

Что общего у литературы и биологии, или как развивались Digital Humanities в России

Точные методы в гуманитарных науках появились задолго до компьютеров — и в России их история перевалила уже за полтора века. Вспоминаем, как филологи, историки, лингвисты, математики и другие исследователи развивали количественные подходы к анализу литературы, языка и других гуманитарных объектов — и создавали базу для становления на российский почве Digital Humanities

Стилометрия кинодиалогов: шесть жанров в поисках автора

Статья Яна Рыбицкого и Агаты Холобут The Stylometry of Film Dialogue: Pros and Pitfalls показывает связь между жанровыми особенностями кино и лексикой диалогов: с помощью стилометрии и сентимент-анализа авторы исследуют 178 фильмов из разных эпох. Рассказываем, что же у них получилось

Поясни за стиль. Какому поэту подражает нейросеть?

Цифровые филологи научились «измерять стиль»: у «Системного Блока» есть подборка статей о стилометрии и гайд о том, как провести собственное стилометрическое исследование. Нейросети зашли еще дальше: современные технологии уже позволяют выделять стиль текстов и даже подражать ему (об этом мы писали здесь). Сегодня мы расскажем о новом эксперименте Бориса Орехова, в котором исследователь оценивает, насколько хорошо модель может скопировать узнаваемый авторский стиль

Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru

Подкорпус Национального корпуса русского языка, в котором можно изучать ударения русских слов, содержит произведения поэтов-любителей с сайта Стихи.ру. Каким образом они могут быть полезны для науки — читайте в нашем материале

Шесть рукопожатий Владимира Маяковского

Представляем результаты авторского цифрового исследования: граф социальных связей персоналий Серебряного века на основе материалов проекта «Устная история». Центральная фигура — Владимир Маяковский.

Искусственный интеллект vs. феномен Владимира Набокова

Владимир Набоков известен тем, что писал и на русском, и на английском. Сможет ли компьютер распознать его оригинальный стиль? Этот вопрос исследовал цифровой филолог Борис Орехов. О том, как стилометрия при помощи статистики справляется с филологическими задачами – в материале «Системного Блока».

Голос(а) автора: может ли один человек писать как несколько?

Стилометрический анализ позволяет определить, принадлежат ли тексты одному и тому же автору. Но что если писатель творит под несколькими литературными масками, у каждой из которых есть индивидуальность? Рассказываем, как португалец Фернандо Пессоа и француз Ромен Гари «обманули» стилометрию — а ученые Борис Орехов и Даниил Скоринкин исследовали и визуализировали это.

Строить графы стало проще. Встречайте Gephi Lite

В апреле 2023 года разработчики самой популярной программы для сетевого анализа Gephi представили её веб-версию. Базовые функции сервиса теперь доступны в браузере, и пользоваться им стало гораздо проще.

Тест: какое будущее вам подходит?

Писатели-фантасты представляли будущее по-разному. Мы уже рассказывали о том, как им удалось предвидеть современные информационные технологии от мессенджеров до генеративных нейросетей. Теперь пришла ваша очередь подобрать себе грядущее по душе. Тест подскажет, какое будущее из фантастических книг разных столетий подойдет вам лучше всего.

Как хорошо вы знаете песни «Короля и Шута»?

Пройдите тест и узнайте, разбираетесь ли вы в творчестве «КиШ»а лучше «Системного Блока»!

От кыргызского эпоса до ChatGPT: что обсуждали на круглом столе «Digital Humanities в Центральной Азии» 

15 марта 2023 года прошёл круглый стол «Digital Humanities в Центральной Азии» — серия панельных дискуссий, на которых учёные из стран Центральной Азии обсудили цифровые гуманитарные исследования и проекты в регионе. Участница Системного Блока сходила на мероприятие и рассказывает, о чем там говорилось.

анализ персонажей войны и мир

500 героев в одной схеме: о чем говорит сетевой анализ «Войны и мира» 

Ранее мы рассказывали про цифровой анализ речи героев «Войны и мира». В этом материале с помощью сетевого анализа разбираемся, как взаимосвязаны персонажи эпопеи и кто из них «главнее»

Как провести стилометрический эксперимент с помощью stylo?

Системный Блокъ уже рассказывал о том, что такое стилометрия, и о многих стилометрических исследованиях. Читайте подробный гайд, как самому провести такой эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.

Гулливер и нейросети: интернет-банкинг и онлайн-торговля в произведениях писателей XVIII-XIX века

Фантастика часто предугадывает будущие достижения науки и техники. «Системный Блокъ» уже рассказывал, как русские писатели XIX века предсказали появление генеративных нейросетей, мессенджеров, соцсетей и компьютеров. Теперь посмотрим на предсказания зарубежных писателей: онлайн-торговлю, интернет-банкинг, дистанционное образование, искусственный интеллект и новостные агрегаторы.

Как писатели XIX века предсказали мессенджеры, интернет на Марсе и нейросети

Научная фантастика в русской литературе имеет давнюю историю. Писатели XIX и первой половины XX века предсказали многое: от телевидения до космических полетов. А насколько хорошо они предвидели современные информационные технологии? Удивительно, но современники Пушкина и Толстого смогли предсказать мессенджеры, генеративные нейросети, 3D-кино и что-то вроде интернета на Марсе.

Что говорит о персонажах «Войны и мира» их речь

Из уроков литературы мы помним долгие обсуждения монологов героев в «Войне и мире» Льва Толстого. Но что, если взглянуть на прямую речь персонажей под другим углом? Рассказываем, как цифровые методы анализа прямой речи персонажей помогают узнать, кто из героев ближе всех к светскому обществу, у кого самая «живая» и самая «сухая» речь, и в чем драматическое различие между речью Наташи Ростовой и Андрея Болконского.

Что такое взлиза и кто носил чаплыжку: цифровое «Слово Толстого»

23 ноября команда Tolstoy Digital запустила сайт «Слово Толстого» – первый цифровой путеводитель по необъятному наследию писателя

Chekhov Digital: как Чехов писал письма жене и куда течет время в его текстах

Знали ли вы, что слово «время» в произведениях А. П. Чехова имеет определенные схемы употребления, повторяющиеся от тома к тому? Могли ли подумать о том, что письма к любимой супруге Ольге Леонардовне драматург писал как к чужому человеку? Как связаны стили Чехова-писателя и Чехова-личности? Ответы на эти вопросы читайте в продолжении статьи о семантическом издании Chekhov Digital.

Цифровой Чехов: как устроено семантическое издание и где искать 4500 писем Чехова

Каждый филолог желает знать, что такое семантическое издание. В этой статье мы расскажем вам об одном из них. В нем можно исследовать социальные сети Чехова и посмотреть, кого писатель упоминал в своей обширной переписке.

Стилометрия, сетевой анализ и золотой век испанской поэзии: Фернандо де Эррера как мост между мирами

Доказать авторство поэта, чей сборник стихов был издан уже после его смерти, – трудная задача. К счастью, стилометрия помогает разобраться в этом вопросе, а заодно понять эволюцию поэтического стиля в испанской поэзии раннего Нового времени. Рассказываем, как цифровая филология помогла исследователям глубже изучить, какую роль Фернандо де Эррера сыграл в искусстве XVI – XVII веков.

Кто скрывается за псевдонимом «Элена Ферранте»: стилометрия против мистификаций

Системный Блокъ много писал о стилометрии: об атрибуции и верификации авторства, анализе эмоций в песнях и стиля переводчика. Теперь на примере известного итальянского автора рассказываем, как стилометрия помогает раскрывать литературные мистификации.

Цифровое шекспироведение: драма в трех действиях

Человеку из XXI века может быть сложно понять социальные реалии, в которых создавались пьесы Шекспира. С помощью цифрового анализа исследователи выяснили особенности национальных, гендерных и других ролей, использованных автором. Разбираемся, каким языком пользовались кельты, женщины и обманщики в шекспировских пьесах.

«Метр и смысл» стихотворения: связь формы и содержания в европейской поэзии

Существует ли связь между стихотворным размером и тематикой стихотворения? Можно ли стихи, написанные одним размером, объединить в связанные по смыслу группы? Ищем ответы на эти вопросы в европейской поэзии с помощью тематического моделирования

Автор(ы) умер(ли), а проблемы остались

Продолжаем разгадывать вечную тайну «Беовульфа» и рассказывать о том, как цифровые филологи строят научный диалог в поисках правды.

«Заговори, чтобы я тебя увидел»: эволюция диалога в русской литературе XIX века

Литература как любая сложная система развивается и эволюционирует. Какие-то произведения остаются в центре внимания читателей на десятки и даже сотни лет, другие забываются сразу после издания. Так работает «литературная эволюция», модель которой начинал разрабатывать русский филолог Юрий Тынянов (подробнее об этом — в нашем прошлом материале). Применима ли эта концепция к отдельным частям произведения — например, к диалогу? Исследователи пытаются дать ответ на этот вопрос.

Вышел интерактивный учебник по Python для гуманитарных исследований

Первое полное пособие по использованию Python в гуманитарных науках доступно в онлайн-формате

Пушкинский дом обновил корпус нарративной прозы XIX века

С ноября 2021 года пользователям доступна вторая, улучшенная версия датасета.

Нейроцензура: генератор стихов Пушкина отказался писать о России, самовластье и царе

Бот «AI да Пушкин» дописывает любую предложенную ему фразу до четверостишия в стиле А.С. Пушкина — но только если в ней нет «запретных» слов

Пушкинский дом обновил Корпус текстов детской прозы

Институт русской литературы (Пушкинский дом) РАН пополнил ДетКорпус и сделал его доступным не только для онлайн-поиска, но и в качестве датасета

Как плести виртуальные сети с помощью Gephi

Gephi — самый известный инструмент для визуализации графов и сетевого анализа. С его помощью можно исследовать и население Викторианской Англии, и отношения героев «Войны и мира», и странички друзей Вконтакте. Рассказываем максимально просто, как пользоваться Gephi

Как Джордж Вашингтон стал эмо: Google N-grams в ТикТок трендах

Если вы были в ТикТок, то знаете, что тренд там можно сделать из чего угодно. Пару месяцев назад сотни тысяч просмотров начали набирать записи экрана с сайта Google Books Ngram Viewer, показывающем популярность слова в определенный период времени. Пользователи находят слово «эмо» в 1803 году или упоминание «Звёздных войн» — в 1696

Русские классики – сексисты или все-таки нет? Корпусный анализ текста Пушкина

В октябре «Системный блокъ» опубликовал корпусное исследование русской классики, в котором были проанализированы произведения школьной программы. Тогда в анализ текста Пушкина вошли «Евгений Онегин» и «Руслан и Людмила». Внимательные читатели заметили, что исследователи упустили не менее важные произведения классика – «Повести покойного Ивана Петровича Белкина» и «Капитанскую дочку», которые также входят в школьную программу. Мы посчитали такие замечания справедливыми и решили провести дополнительный анализ

Идеальная формула депрессивной песни на примере Radiohead

В наше время компьютер может работать практически с чем угодно, в том числе и с музыкой: существует множество методов как преобразовать её в формат, понятный компьютеру, так и проанализировать полученные данные по разным параметрам. В анализе песни текст не менее важен, чем мелодия. В этом материале мы расскажем, как с помощью цифровых методов можно измерить депрессивность вашей любимой песни.

Тайна стихов декабриста Батенькова: стилометрия на страже истины

Стилометрия — метод анализа текста, который сейчас проводится с помощью компьютеров и сложных вычислений. Благодаря современной стилометрии можно изучить не только стиль произведения, но и установить авторство текста. «Системный Блокъ» рассказывает об одном из самых крупных стилометрических расследований — о загадке стихов декабриста Батенькова.

Программа для поиска рифмы: как она работает и когда ломается

В 2018 году был разработан метод автоматической разметки рифм. В 2021 его автор представил RhymeTagger — общедоступную библиотеку на Python , которая позволяет вам анализировать рифмовку стихотворения. Рассказываем, как работает инструмент, и тестируем его на лесенках от Маяковского

Насколько хорошо вы знаете историю цифрового литературоведения?

Методы, которыми пользуются цифровые филологи, изобретены совсем недавно. Или так только кажется? Предлагаем вам пройти тест и узнать побольше об истории цифровой филологии и некоторых ее методах.

Нейросеть vs Стихи.ру: отличите ли вы живого поэта от электронного?

Нейросети давно научились писать стихи. Так ли сильно их произведения отличаются от человеческих? Сможете ли вы отличить текст с ресурса Стихи.ру от стихотворения нейросети, обученной на произведениях с этого сайта? Предлагаем пройти наш тест и узнать.

Набоков и Булгаков — сексисты? Корпусное исследование русской классики

Продолжаем рассказывать о том, как русские писатели описывали женщин и мужчин и можно ли измерить гендерное неравенство в литературе. В прошлый раз досталось Пушкину и Толстому, на этот раз смотрим на Набокова и Булгакова

Толстой и Пушкин — сексисты? Корпусное исследование русской классики

«Системный Блокъ» писал об исследованиях того, как по-разному мужчины и женщины описывались в литературе XIX и XX веков. Сегодня перейдем к русской классической литературе: как там описывали женщин и мужчин и видно ли гендерное неравенство. Рассказывают создательницы проекта «Толстой сексист? А Пушкин?»

DraCor и Programmable Corpora: корпуса для цифровых гуманитариев

Разбираемся, как работает DraCor — программируемый корпус текстов на 11-ти языках, с помощью которого можно прочитать пьесу, наглядно рассмотреть отношения между персонажами и даже поиграть в карточную игру

RhymeTagger: создан инструмент для автоматической разметки рифмы

Чешский цифровой стиховед Петр Плехач разработал и опубликовал библиотеку Python под названием rhymetagger, которая предназначена для поиска рифмы в стихотворениях. Разработанный алгоритм протестировали на текстах на английском, французском и чешском языках

нарратив

Флэшбеки, сны и встроенный нарратив: каким бывает повествование

Что такое нарратив и из чего складывается повествование? О способах конструировать сюжет рассказываем в новом материале

цифровой гуманитарий

Тест: какой вы цифровой гуманитарий?

Пройдите тест, который покажет, кто вы в мире цифровых гуманитарных исследований. А заодно — познакомьтесь с известными цифровыми гуманитариями.

паратекст

Окружён, но не сломлен: цифровой паратекст и его применение

Когда мы читаем книгу, то иногда отвлекаемся на нумерацию страниц, перечитываем оглавление или сравниваем обложку с содержанием. Так происходит, потому что все эти элементы являются паратекстом. О том, что означает этот термин и какие функции несёт, расскажем в нашей статье

Трансформация языка в Интернете: норма или преступление?

Под влиянием культурных и социальных условий наш язык трансформируется. В эпоху Интернета эти изменения происходят гораздо чаще, и принять их бывает трудно. Разбираемся, достоин ли «великий и могучий» русский язык называться таковым после языка падонкафф, где грань между лол и кек и почему нельзя повышать шрифт на кого попало

авторский текст

По словам их узнаете их: как вычисляли автора «Беовульфа»

Рассказываем, как одни ученые устанавливали авторство знаменитого древнеанглийского эпоса «Беовульф» при помощи статистики, а другие с ними спорили. Ведь научные споры цифровых филологов — это интересно!

Опубликован открытый корпус европейских романов

Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках