
Пушкинский дом обновил корпус нарративной прозы XIX века
С ноября 2021 года пользователям доступна вторая, улучшенная версия датасета.
Цифровая филология — одно из направлений цифровых гуманитарных наук (Digital Humanities). В этой рубрике мы рассказываем о применении цифровых технологий в филологических исследованиях и цифровых филологических проектах. Мы пишем о стилометрии, сетевом анализе литературы, литературных корпусах и многом другом. Можно ли с помощью компьютера выделить из текста эмоции и события? А установить автора произведения, отделить его стиль от стиля переводчика и найти самого влиятельного героя пьесы? Узнайте в наших материалах!
С ноября 2021 года пользователям доступна вторая, улучшенная версия датасета.
Бот «AI да Пушкин» дописывает любую предложенную ему фразу до четверостишия в стиле А.С. Пушкина — но только если в ней нет «запретных» слов
Институт русской литературы (Пушкинский дом) РАН пополнил ДетКорпус и сделал его доступным не только для онлайн-поиска, но и в качестве датасета
Gephi — самый известный инструмент для визуализации графов и сетевого анализа. С его помощью можно исследовать и население Викторианской Англии, и отношения героев «Войны и мира», и странички друзей Вконтакте. Рассказываем максимально просто, как пользоваться Gephi
Если вы были в ТикТок, то знаете, что тренд там можно сделать из чего угодно. Пару месяцев назад сотни тысяч просмотров начали набирать записи экрана с сайта Google Books Ngram Viewer, показывающем популярность слова в определенный период времени. Пользователи находят слово «эмо» в 1803 году или упоминание «Звёздных войн» — в 1696
В октябре «Системный блокъ» опубликовал корпусное исследование русской классики, в котором были проанализированы произведения школьной программы. Тогда в анализ текста Пушкина вошли «Евгений Онегин» и «Руслан и Людмила». Внимательные читатели заметили, что исследователи упустили не менее важные произведения классика – «Повести покойного Ивана Петровича Белкина» и «Капитанскую дочку», которые также входят в школьную программу. Мы посчитали такие замечания справедливыми и решили провести дополнительный анализ
В наше время компьютер может работать практически с чем угодно, в том числе и с музыкой: существует множество методов как преобразовать её в формат, понятный компьютеру, так и проанализировать полученные данные по разным параметрам. В анализе песни текст не менее важен, чем мелодия. В этом материале мы расскажем, как с помощью цифровых методов можно измерить депрессивность вашей любимой песни.
Стилометрия — метод анализа текста, который сейчас проводится с помощью компьютеров и сложных вычислений. Благодаря современной стилометрии можно изучить не только стиль произведения, но и установить авторство текста. «Системный Блокъ» рассказывает об одном из самых крупных стилометрических расследований — о загадке стихов декабриста Батенькова.
В 2018 году был разработан метод автоматической разметки рифм. В 2021 его автор представил RhymeTagger — общедоступную библиотеку на Python , которая позволяет вам анализировать рифмовку стихотворения. Рассказываем, как работает инструмент, и тестируем его на лесенках от Маяковского
Методы, которыми пользуются цифровые филологи, изобретены совсем недавно. Или так только кажется? Предлагаем вам пройти тест и узнать побольше об истории цифровой филологии и некоторых ее методах.
Нейросети давно научились писать стихи. Так ли сильно их произведения отличаются от человеческих? Сможете ли вы отличить текст с ресурса Стихи.ру от стихотворения нейросети, обученной на произведениях с этого сайта? Предлагаем пройти наш тест и узнать.
Продолжаем рассказывать о том, как русские писатели описывали женщин и мужчин и можно ли измерить гендерное неравенство в литературе. В прошлый раз досталось Пушкину и Толстому, на этот раз смотрим на Набокова и Булгакова
«Системный Блокъ» писал об исследованиях того, как по-разному мужчины и женщины описывались в литературе XIX и XX веков. Сегодня перейдем к русской классической литературе: как там описывали женщин и мужчин и видно ли гендерное неравенство. Рассказывают создательницы проекта «Толстой сексист? А Пушкин?»
Разбираемся, как работает DraCor — программируемый корпус текстов на 11-ти языках, с помощью которого можно прочитать пьесу, наглядно рассмотреть отношения между персонажами и даже поиграть в карточную игру
Чешский цифровой стиховед Петр Плехач разработал и опубликовал библиотеку Python под названием rhymetagger, которая предназначена для поиска рифмы в стихотворениях. Разработанный алгоритм протестировали на текстах на английском, французском и чешском языках
Что такое нарратив и из чего складывается повествование? О способах конструировать сюжет рассказываем в новом материале
Пройдите тест, который покажет, кто вы в мире цифровых гуманитарных исследований. А заодно — познакомьтесь с известными цифровыми гуманитариями.
Когда мы читаем книгу, то иногда отвлекаемся на нумерацию страниц, перечитываем оглавление или сравниваем обложку с содержанием. Так происходит, потому что все эти элементы являются паратекстом. О том, что означает этот термин и какие функции несёт, расскажем в нашей статье
Под влиянием культурных и социальных условий наш язык трансформируется. В эпоху Интернета эти изменения происходят гораздо чаще, и принять их бывает трудно. Разбираемся, достоин ли «великий и могучий» русский язык называться таковым после языка падонкафф, где грань между лол и кек и почему нельзя повышать шрифт на кого попало
Рассказываем, как одни ученые устанавливали авторство знаменитого древнеанглийского эпоса «Беовульф» при помощи статистики, а другие с ними спорили. Ведь научные споры цифровых филологов — это интересно!
Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках
Продолжаем серию постов о применении Sketch Engine в цифровой филологии. В прошлом материале мы узнали, что такое Sketch Engine, научились создавать свой корпус и выяснили, каков был лирический герой Маяковского до и после Революции. Познакомимся с оставшимися функциями Sketch Engine и узнаем, что значили для Маяковского Советы и Россия, что в его жизни изменил 1917 год и как это повлияло на лирику
Системный Блокъ уже рассказывал, как провести собственное корпусное исследование при помощи antconc и mystem. Теперь мы обратимся к другому инструменту — корпусному менеджеру Sketch Engine и с его помощью проанализируем корпус текстов Владимира Маяковского.
Читать книги бывает долго и неинтересно. Иногда просто хочется узнать, что будет в конце. Рассказываем, может ли компьютер прочитать книжку за вас, и что он сумеет понять
Как помочь компьютеру понять, что Гарри — волшебник, Гендальф — майар, а Джон Сноу — (СПОЙЛЕР!) одновременно Старк и Таргариен? Человек схватывает новую информацию на лету: из контекста, из интонации, из невербального общения. А как дать компьютеру такие же умения?
Измерение сложности текста — задача для компьютерной лингвистики не новая, и в этой области многое уже придумано. Но применимо ли это для художественной литературы? Разбираемся на примере произведений американского писателя Генри Джеймса
Корпус — это собрание текстов в электронной форме, в котором можно осуществлять поиск. Важное отличие корпуса от электронной библиотеки — в корпусе всегда присутствует разметка. Корпуса бывают самыми разными, и мы уже рассказывали про литературные корпуса отдельных авторов. Расскажем еще об одном специальном типе литературных корпусов — поэтических корпусах
Попытки применять точные методы в исследованиях стихотворений делались литературоведами задолго до возникновения компьютерных технологий и digital humanities. В начале XX века к точности в анализе поэтических текстов стремился русский поэт-символист Андрей Белый. Он одним из первых ввел в исследование стиха количественные методы
Тексты Нового Завета существуют в нескольких рукописных вариантах, которые имеют значительные различия между друг другом. Метод пространственного анализа позволяет предположить, какой вариант является исходным. Выясняем, чем же на самом деле питался Иоанн Креститель
Некоторые знают об этом художнике благодаря легенде об отрезанном ухе. Другие вспоминают его единственную проданную картину «Подсолнухи». Есть те, кто вдохновляется его биографией и поиском призвания как автора. Все это о нём — о Винсенте Ван Гоге, который таинственно погиб ровно 130 лет во французской деревне Овер-сюр-Уаз
В отличие от биологии, в филологии нет общепринятой теории эволюции литературы. Никто до конца не понимает, почему одни книги оказываются в центре внимания и входят в канон, другие остаются неизвестными, а третьи переживают период славы, но быстро забываются. Но были (и есть) те, кто пытается адаптировать теорию эволюции к анализу словесности. Рассказываем о двух подходах к объяснению эволюции литературы, один из которых придумали русские филологи еще в начале XX века
Фейковые новости – острая проблема информационного общества. Они быстро распространяются через социальные сети, мессенджеры и СМИ, вводя людей в заблуждение. Это может привести к массовой дезинформации, манипуляциям и общественным кризисам
Каждый знакомится с литературным наследием Льва Толстого по-разному. Одни изучают его творчество одновременно с биографией, другие читают для себя, а третьи покоряют школьную программу. Часто одних текстов и критических статей бывает недостаточно. Сегодня с этой задачей помогают мультимедиа
Бывает так, что на уроках литературы очень сложно структурировать информацию объемных произведений — «Война и Мир», «Преступление и наказание» остаются для многих исключительно смутным воспоминаниями со скучных уроков литературы. Приходится ограничиваться поверхностной информацией о ключевых событиях, упуская важные и интересные моменты, которые помогли бы проникнуться романом и углубиться в его историю. Однако эта ситуация поправима — ведь есть интерактивное приложение «Живые страницы». Расскажем, как оно устроено
Что общего между рефлексирующим Данте, загадочным Байроном и неутомимым Твеном? Правильный ответ: у каждого из них есть свой цифровой литературный веб-корпус! Небольшой спойлер: интересно будет не только исследователям
Рассказываем, как люди начали пользоваться эмотиконами — и как теперь их семантику изучают компьютерными методами. Посвящается тем, кто хотя бы раз не смог понять, что означает сообщение со смайликом
Но не тот, о котором вы подумали. Мы расскажем не о последствиях трагической любви, которые заставляют молодых людей с разбитым сердцем сводить счеты с жизнью, а о том, как «Страдания юного Вертера» перекликаются с окружающими его текстами
От She Loves You до She’s So Heavy: как психологи исследовали композиции Beatles цифровыми методами и ранжировали их от радостных — до депрессивных
Школьники, зависающие на сайтах с краткими содержаниями, многое бы отдали за чудо-ресурс, которому можно было бы отдать какое-нибудь художественное произведение и получить взамен описание событий в тексте. Возможно, в скором будущем их мечта воплотится в реальность. Рассказываем, как работает технология извлечения событий из художественных текстов — и что она позволяет узнать о литературе уже сейчас
Что может рассказать об истории иудаизма социальная сеть мудрецов которые четыре века только и делали, что спорили?
Как инструменты стилометрии помогают исследовать относительную силу стилистического отпечатка автора и переводчика в художественном тексте
Как научить машину увлекательно пересказывать тексты, и чем здесь могут помочь Герои и Злодеи из разных сказок, а также великий фольклорист Владимир Пропп
Рассказываем, как фольклорному архиву Латвии удалось привлечь тысячи волонтеров к оцифровке и обогащению своих электронных коллекций, а также почему это может быть полезно другим странам
Как генерировать названия детективов в стиле Донцовой с помощью списка фразеологизмов, семантических векторов и морфологического анализатора
Когда мобильный интернет был экзотикой, а отчёты по грантам сдавали на 3,5-дюймовых дискетах... в Рунете уже были цифровые гуманитарные проекты! Рассказываем в лицах и деталях об одном из них — о параллельном корпусе переводов поэмы «Слово о полку Игореве», которая отметила 13-летие. В конце поста бонус — обзор исследований на основе корпуса
Разбираемся, как работает алгоритм генерации историй «Шахерезада»
А.П. Чехов переизобрел драматический театр. Его роль в истории драматургии сравнима с ролью Эйнштейна в физике и Джобса — в мобильной электронике. В день 160-летия Чехова рассказываем о том, как посмотреть на его творчество через цифровую оптику — и что может дать такой взгляд.
Как устроен шедевр Булгакова: анализируем роман «Мастер и Маргарита» с помощью методов цифрового литературоведения
Статистика дает ответ на вопрос, который давно волнует исследователей классической французской литературы: писал ли Мольер свои произведения, или за него все сделал Корнель?
Алгоритм умеет восстанавливать надписи, сделанные несколько тысяч лет назад — и, как утверждают создатели, делает это быстрее, чем профессиональные исследователи эпиграфисты
Как то, что мы читаем, влияет на нашу жизнь
Как, сколько и с кем общаться, чтобы стать по-настоящему главным героем пьесы — отвечает математика
Никогда не задумывались, как мы строим предложения? Конечно, нет, это невозможно. Молодая наука когнитивная стилистика объясняет, почему
Поэзия — цветной вид искусства. В отличие от фотографии и кино, она никогда не была черно-белой. Поэты в своем творчестве окрашивают не только физические объекты, но и запахи, звуки, тактильные ощущения… А можно ли исследовать цветовую картину мира отдельного поэта с помощью цифровых методов?
Как метод Дельты Бёрроуза и тематическое моделирование помогают решить проблему атрибуции текста
Сегодня модно исследовать художественную литературу методами анализа социальных сетей. Мы начинаем серию постов по сетевому анализу русской драматургии. В первом посте мы расскажем, как сетевой анализ позволяет посчитать «влиятельность» литературного героя
Исследование священных текстов с помощью методов автоматической обработки языка и статистики — то, с чего начались современные Digital Humanities. Сегодня статистика применяется для анализа священных текстов разных религиозных традиций, в том числе исламской. Публикуем перевод недавней работы, где анализируется соотношение божественных черт в Коране
Так ли просто сохранять цифровые объекты? Как это делают сейчас? Чем озадачены ученые всего мира? Немного простых ответов на сложные вопросы современности
Как обычный «слепой тест» по отделению машинной поэзии от той, что написана людьми, приводит ученых к философскому спору об относительности понятия «человека» в искусстве
Элегия — ключевой поэтический жанр «золотого века» русской поэзии. Что можно узнать о нем, используя количественные методы, такие как подсчет статистики словоупотреблений, тематическое моделирование, регрессионный анализ длины стихотворений? Рассказывает филолог Тоня Мартыненко (Тартуский университет)