корпус

Пьющих просьба не беспокоить: анализируем язык объявлений о сдаче квартир с помощью LLM

Что нужно человеку, чтобы снять квартиру в России? Каждый, кто читал объявления на популярных сайтах, знает, что нужно не только…

12.03.2026

Нейросеть-алкотестер: как ваша речь может выдать вас с головой

Алкотестер в каждой машине — звучит слишком хорошо, чтобы быть правдой? А если алкотестер — это ваш собственный голос? Достаточно…

11.03.2026

От рок-баллад до Тейлор Свифт: как алгоритмы находят сюжеты в песнях

Мы привыкли считать сюжет признаком романа или фильма, а песню — территорией эмоций и состояний. Но почему тогда одни треки…

12.02.2026

Исторические личности в русской прозе: кто, почему и где упоминается чаще всех?

В художественных произведениях часто упоминаются исторические личности. Что будет, если посмотреть на русскую литературу XIX века через упоминания реальных людей?…

30.01.2026

Брюхоногие моллюски, гастрит и редкие фамилии: как сделать языковой корпус репрезентативным

Чтобы грамотно составить корпус текстов, который помогал бы отвечать на вопросы о выбранном языке, недостаточно просто взять все книги, которые…

21.01.2026

Вышла книга о российских цифровых гуманитарных проектах

Рассказываем про презентацию коллективной монографии «Парад цифровых гуманитарных проектов»

14.11.2025

Что такое акростих, и как найти зашифрованные послания в тексте

Акростих — это зашифрованное послание, где первые буквы строк или предложений складываются в отдельные слова или фразы. DH-исследователь Женя Дуненков…

12.11.2025

Языковая революция Маяковского: как поэтические неологизмы (не) вошли в речь

Владимир Маяковский — революционный поэт не только по содержанию, но и стилистически, что отражается в том числе в игре слов.…

20.10.2025

Как узнать тематический состав корпуса для обучения LLM

Датасет в машинном обучении — структурированный набор данных, который используется для тренировки моделей. Чтобы обучить большую языковую модель (LLM), датасеты…

17.09.2025

Под капотом у языкового корпуса: как нейросети и NLP-библиотеки используются в НКРЯ

В Национальном корпусе русского языка за последние годы появилось много новых инструментов. Один из них — это «Портрет слова», который…

06.08.2025

Как скачать весь Telegram: автоматизация выгрузки каналов с помощью Python

Как получить доступ к огромным массивам текстов из Telegram, чтобы изучать язык медиа, тренды или реакцию общества на события в…

05.08.2025

Может ли GPT найти связь Хармса с Брюсовым?

Можно ли с помощью нейросетей находить скрытые цитаты, аллюзии и сближения в художественных текстах? Конечно! Что будет, если объединить силу…

11.06.2025

Textualité Connexité Intertextualité: как канон и жанр влияют на французскую литературу

Выдающийся филолог-структуралист Ролан Барт полагал, что каждый текст — это интертекст, то есть в каждом тексте присутствуют в более или…

08.04.2025

Цифровая библиотека японской литературы Aozora Bunko

Aozora Bunko — это цифровая библиотека, где собраны произведения японской классической литературы, которые находятся в открытом доступе. «Системный Блокъ» рассказывает,…

20.03.2025

«Гипотеза Поллианны»: насколько позитивна детская зарубежная литература?

Что такое «гипотеза Поллианны»? Как она проявляется в зарубежной детской и юношеской литературе? Какие существуют методы, чтобы ее подтвердить или…

04.02.2025

Как английский вытесняет корейский в K-pop музыке: анализ данных и визуализация

Как международная популярность корейских поп-групп повлияла на тексты их песен? Как часто исполнители используют английские слова? Как отличаются песни о…

06.01.2025

Цифровой гербарий МГУ в пятнадцати цифрах

Цифровой гербарий МГУ — это более 1.3 млн отсканированных образцов растений, из которых почти миллион уже снабжены машиночитаемой геопривязкой, а…

01.01.2025

Учебники советской школы: возрождение в цифре

Век цифровых технологий и новых образовательных стандартов не смог стереть интерес к старым, в том числе советским и дореволюционным, учебникам.…

24.11.2024

Цифровая охота: как «поймать» всех животных в тексте

Что влияет на распределение содержательных слов в тексте сильнее: литературная традиция или внешние факторы? Кирилл Маслинский, исследователь литературы, сотрудник Пушкинского…

22.08.2024

Музыкальная «энциклопедия русской жизни»: о чём пела русскоязычная поп-эстрада с 1990 по 2019 год

Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта…

05.06.2024

Национальному корпусу русского языка — 20 лет: подборка

Мы собрали лучшие материалы «‎Системного Блока»‎, посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с…

29.04.2024

👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️

«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.

09.02.2024

Как устроена оцифровка дневников: Михаил Мельниченко о проекте «Прожито» и его перезапуске

Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов:…

18.01.2024

Краш-тест для любителей дешёвых драм

Применить цифровые технологии к пьесам Шекспира? Да легко! Если вы хотите проанализировать связи между персонажами драматических текстов, то в этом…

25.12.2023

Русско-китайский корпус НКРЯ, или Как превратить ботвинью в гаспачо

Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса…

12.05.2023

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна

Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной…

06.05.2023

Пушкинский дом обновил корпус нарративной прозы XIX века

С ноября 2021 года пользователям доступна вторая, улучшенная версия датасета.

18.02.2022

Русские классики – сексисты или все-таки нет? Корпусный анализ текста Пушкина

В октябре «Системный блокъ» опубликовал корпусное исследование русской классики, в котором были проанализированы произведения школьной программы. Тогда в анализ текста…

13.01.2022

Сбитые самолеты, русские стихи и другие жестокие вещи

Что общего у национального корпуса русского языка и бомбардировщиков? Как преодолеть системные искажения в больших культурных данных? Заметки о том,…

25.10.2021

Набоков и Булгаков — сексисты? Корпусное исследование русской классики

Продолжаем рассказывать о том, как русские писатели описывали женщин и мужчин и можно ли измерить гендерное неравенство в литературе. В…

22.10.2021

DraCor и Programmable Corpora: корпуса для цифровых гуманитариев

Разбираемся, как работает DraCor — программируемый корпус текстов на 23-х языках, с помощью которого можно прочитать пьесу, наглядно рассмотреть отношения…

03.08.2021

«Нравственное право» и «немеркнущая правда»: как речи президентов на 9 мая влияют на коллективную память

Мы проанализировали все речи президентов, которые произносились в честь 9 мая с 2000 года. О том, как эти выступления влияют…

31.05.2021

Царские свитки и биография Конфуция: что есть в корпусе русских переводов общественно-политических сочинений XVIII века

Корпус переводов общественно-политических текстов XVIII века помогает проследить формирование русского политического языка. В корпусе есть философские трактаты, художественные произведения политического…

23.03.2021

Опубликован открытый корпус европейских романов

Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках

28.01.2021

Корпус для всех: как используют НКРЯ

Кому и почему «важно, чтобы корпус жил»? Системный Блокъ узнал, как применяют Национальный корпус русского языка: от школьных исследований до…

05.02.2020

Многомерное «Слово о полку Игореве»: от кукушки до алкогольного брендинга

Когда мобильный интернет был экзотикой, а отчёты по грантам сдавали на 3,5-дюймовых дискетах... в Рунете уже были цифровые гуманитарные проекты!…

03.02.2020

Ищем смыслы: как сделать тематическое моделирование корпуса текстов

Тематическое моделирование — легкий способ понять смысловой состав большой коллекции текстов, которую невозможно быстро прочесть глазами. Пользоваться инструментами тематического моделирования…

06.12.2019

Как развитие Альцгеймера исследуют через анализ текстов?

Как то, что мы читаем, влияет на нашу жизнь

03.12.2019

Разбираем по частям научно-популярные ресурсы

Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики…

04.11.2019

Перенос стиля нейросетями: Дрейк, Летов, Оксимирон

Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать…

11.10.2019

Красота и божественная слава: статистический анализ Корана

Исследование священных текстов с помощью методов автоматической обработки языка и статистики — то, с чего начались современные Digital Humanities. Сегодня…

27.09.2019

Учат в школе… Чему?

Чему учат в современной началке? Могут ли современные количественные методы помочь в поиске объективных ответов на методические вопросы? Специально ко…

02.09.2019

Что случилось с самыми унылыми стихотворениями XIX века

Элегия — ключевой поэтический жанр «‎золотого века» русской поэзии. Что можно узнать о нем, используя количественные методы, такие как подсчет…

27.08.2019

Как провести корпусное исследование? Помогите!

Рассказываем, что такое mystem и antconc, для чего они нужны, и как ими пользоваться

06.08.2019

В начале было слово… а в конце его уже не было

Почему в начале английского романа ты должен пообедать, а в конце жениться... или умереть? Рассказываем, когда у мистера Дарси наступает…

10.06.2019

О чем говорят герои фильмов Уэса Андерсона?

Первого мая режиссер и волшебник Уэс Андерсон отмечает пятидесятилетний юбилей. Перечитываем его фильмографию и делаем визуализацию. Так, как ее сделал…

01.05.2019

100 лет фантастики в цифрах

Когда фантасты начали писать про искусственный интеллект и магический феминизм и разлюбили инопланетян?

15.04.2019

Как аннотация текстов связана с шахматами?

Как аннотировать тексты, используя метод для подсчёта рейтинга шахматистов?

08.04.2019

Цифра на службе у филолога

“Гумилёва считали?”: лингвист и популяризатор Александр Пиперски рассказывает, как открыл для себя количественные методы, что из этого получилось и зачем…

05.04.2019

1000 друзей Павла Дурова: как выкачивать данные ВКонтакте

Обкачиваем соцсеть своими руками

29.03.2019

Страх и счастье в Лондоне: география эмоций

Можно ли рассказать об эмоциях, привязав их к определенному месту? А что, если эмоции фиктивные, и содержатся только в литературных…

01.03.2019

Корпус из твитов своими руками

Краткая инструкция о том, как просто собрать данные из твиттера для своего исследования

28.02.2019

Нейросети и смерть автора

Стихи и тексты песен, написанные искусственными нейросетями, стали медийным мейнстримом. Но зачем они нужны? Может ли нейропоэзия помочь иследователю в…

01.11.2018