корпус

Цифровая охота: как «поймать» всех животных в тексте

Что влияет на распределение содержательных слов в тексте сильнее: литературная традиция или внешние факторы? Кирилл Маслинский, исследователь литературы, сотрудник Пушкинского дома и создатель Деткорпуса, изучает процесс создания контента. Он использует модель роста словаря, чтобы оценить разнообразие концептов семантической области «‎‎животные»‎ в разных жанрах детской литературы, и вычисляет, какие животные вероятнее встретятся в каждом жанре. В ужастиках, конечно, на первом месте — змеи, а вот в научной фантастике частыми гостями неожиданно становятся морские обитатели. Расскажем о методе и результатах этого исследования.

Музыкальная «энциклопедия русской жизни»: о чём пела русскоязычная поп-эстрада с 1990 по 2019 год

Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта обращала внимание постсоветская поп-музыка в первые 30 лет своего существования? Кого из исполнителей можно назвать главными «бытописателями»? Попробуем разобраться в этом материале.

Национальному корпусу русского языка — 20 лет: подборка

Мы собрали лучшие материалы «‎Системного Блока»‎, посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с бересты, поэтических, памятников литературы с XI века и многих других.

👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️

«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.

Как устроена оцифровка дневников: Михаил Мельниченко о проекте «Прожито» и его перезапуске

Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.

Краш-тест для любителей дешёвых драм

Применить цифровые технологии к пьесам Шекспира? Да легко! Если вы хотите проанализировать связи между персонажами драматических текстов, то в этом вам поможет интернет-ресурс DraCor. Пройдите наш тест и проверьте, насколько хорошо вы знаете, как работает DraCor!

Русско-китайский корпус НКРЯ, или как превратить ботвинью в гаспачо

Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. В этой статье мы расскажем про русско-китайский параллельный корпус в составе Национального корпуса русского языка.

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна 

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.

Пушкинский дом обновил корпус нарративной прозы XIX века

С ноября 2021 года пользователям доступна вторая, улучшенная версия датасета.

Русские классики – сексисты или все-таки нет? Корпусный анализ текста Пушкина

В октябре «Системный блокъ» опубликовал корпусное исследование русской классики, в котором были проанализированы произведения школьной программы. Тогда в анализ текста Пушкина вошли «Евгений Онегин» и «Руслан и Людмила». Внимательные читатели заметили, что исследователи упустили не менее важные произведения классика – «Повести покойного Ивана Петровича Белкина» и «Капитанскую дочку», которые также входят в школьную программу. Мы посчитали такие замечания справедливыми и решили провести дополнительный анализ

Набоков и Булгаков — сексисты? Корпусное исследование русской классики

Продолжаем рассказывать о том, как русские писатели описывали женщин и мужчин и можно ли измерить гендерное неравенство в литературе. В прошлый раз досталось Пушкину и Толстому, на этот раз смотрим на Набокова и Булгакова

DraCor и Programmable Corpora: корпуса для цифровых гуманитариев

Разбираемся, как работает DraCor — программируемый корпус текстов на 11-ти языках, с помощью которого можно прочитать пьесу, наглядно рассмотреть отношения между персонажами и даже поиграть в карточную игру

«Нравственное право» и «немеркнущая правда»: как речи президентов на 9 мая влияют на коллективную память

Мы проанализировали все речи президентов, которые произносились в честь 9 мая с 2000 года. О том, как эти выступления влияют на нашу коллективную память и помогают легитимировать власть, читайте в исследовании СБъ

европа xviii век

Царские свитки и биография Конфуция: что есть в корпусе русских переводов общественно-политических сочинений XVIII века

Корпус переводов общественно-политических текстов XVIII века помогает проследить формирование русского политического языка. В корпусе есть философские трактаты, художественные произведения политического характера, учебники и словари

Опубликован открытый корпус европейских романов

Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках

Корпус для всех: как используют НКРЯ

Кому и почему «важно, чтобы корпус жил»? Системный Блокъ узнал, как применяют Национальный корпус русского языка: от школьных исследований до изучения перевода культурных реалий

Многомерное «Слово о полку Игореве»: от кукушки до алкогольного брендинга

Когда мобильный интернет был экзотикой, а отчёты по грантам сдавали на 3,5-дюймовых дискетах... в Рунете уже были цифровые гуманитарные проекты! Рассказываем в лицах и деталях об одном из них — о параллельном корпусе переводов поэмы «Слово о полку Игореве», которая отметила 13-летие. В конце поста бонус — обзор исследований на основе корпуса

Ищем смыслы: как сделать тематическое моделирование корпуса текстов

Тематическое моделирование — легкий способ понять смысловой состав большой коллекции текстов, которую невозможно быстро прочесть глазами. Пользоваться инструментами тематического моделирования может каждый — а научиться можно в нашем тьюториале. Здесь вы найдете пошаговое руководство с решением основных технических трудностей

Разбираем по частям научно-популярные ресурсы

Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики для этого делают и какими характеристиками обладает типичный научно-популярный текст?

Перенос стиля нейросетями: Дрейк, Летов, Оксимирон

Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать на характерный выбор слов, конструкций, моделей легко, но как рассказать алгоритму про метафоры или научить его распознавать другие тонкие материи?

Красота и божественная слава: статистический анализ Корана

Исследование священных текстов с помощью методов автоматической обработки языка и статистики — то, с чего начались современные Digital Humanities. Сегодня статистика применяется для анализа священных текстов разных религиозных традиций, в том числе исламской. Публикуем перевод недавней работы, где анализируется соотношение божественных черт в Коране

Учат в школе… Чему?

Чему учат в современной началке? Могут ли современные количественные методы помочь в поиске объективных ответов на методические вопросы? Специально ко Дню Знаний мы проанализировали более 20 тыс. заданий в учебниках по русскому языку 1-4 классов и постарались разобраться, чему же чаще всего учат в начальной школе

Что случилось с самыми унылыми стихотворениями XIX века

Элегия — ключевой поэтический жанр «‎золотого века» русской поэзии. Что можно узнать о нем, используя количественные методы, такие как подсчет статистики словоупотреблений, тематическое моделирование, регрессионный анализ длины стихотворений? Рассказывает филолог Тоня Мартыненко (Тартуский университет)

Как провести корпусное исследование? Помогите!

Рассказываем, что такое mystem и antconc, для чего они нужны, и как ими пользоваться

В начале было слово... а в конце его уже не было

Почему в начале английского романа ты должен пообедать, а в конце жениться... или умереть? Рассказываем, когда у мистера Дарси наступает кризис среднего возраста, Оливер Твист превращается из мальчика в тинейджера, а главное, при чем тут ключевые слова и как они могут влиять на структуру романного сюжета?

О чем говорят герои фильмов Уэса Андерсона?

Первого мая режиссер и волшебник Уэс Андерсон отмечает пятидесятилетний юбилей. Перечитываем его фильмографию и делаем визуализацию. Так, как ее сделал бы Уэс, конечно!

100 лет фантастики в цифрах

Когда фантасты начали писать про искусственный интеллект и магический феминизм и разлюбили инопланетян?

Как аннотация текстов связана с шахматами?

Как аннотировать тексты, используя метод для подсчёта рейтинга шахматистов?

Цифра на службе у филолога

“Гумилёва считали?”: лингвист и популяризатор Александр Пиперски рассказывает, как открыл для себя количественные методы, что из этого получилось и зачем они нужны филологу-исследователю

Страх и счастье в Лондоне: география эмоций

Можно ли рассказать об эмоциях, привязав их к определенному месту? А что, если эмоции фиктивные, и содержатся только в литературных произведениях? Что получится, если соединить городскую географию, эмоции, литературу и количественный анализ?

Корпус из твитов своими руками

Краткая инструкция о том, как просто собрать данные из твиттера для своего исследования

Нейросети и смерть автора

Стихи и тексты песен, написанные искусственными нейросетями, стали медийным мейнстримом. Но зачем они нужны? Может ли нейропоэзия помочь иследователю в анализе словесного искусства? Отвечает кандидат филологических наук Борис Орехов