Что нужно человеку, чтобы снять квартиру в России? Каждый, кто читал объявления на популярных сайтах, знает, что нужно не только…
Алкотестер в каждой машине — звучит слишком хорошо, чтобы быть правдой? А если алкотестер — это ваш собственный голос? Достаточно…
Мы привыкли считать сюжет признаком романа или фильма, а песню — территорией эмоций и состояний. Но почему тогда одни треки…
В художественных произведениях часто упоминаются исторические личности. Что будет, если посмотреть на русскую литературу XIX века через упоминания реальных людей?…
Чтобы грамотно составить корпус текстов, который помогал бы отвечать на вопросы о выбранном языке, недостаточно просто взять все книги, которые…
Рассказываем про презентацию коллективной монографии «Парад цифровых гуманитарных проектов»
Акростих — это зашифрованное послание, где первые буквы строк или предложений складываются в отдельные слова или фразы. DH-исследователь Женя Дуненков…
Владимир Маяковский — революционный поэт не только по содержанию, но и стилистически, что отражается в том числе в игре слов.…
Датасет в машинном обучении — структурированный набор данных, который используется для тренировки моделей. Чтобы обучить большую языковую модель (LLM), датасеты…
В Национальном корпусе русского языка за последние годы появилось много новых инструментов. Один из них — это «Портрет слова», который…
Как получить доступ к огромным массивам текстов из Telegram, чтобы изучать язык медиа, тренды или реакцию общества на события в…
Можно ли с помощью нейросетей находить скрытые цитаты, аллюзии и сближения в художественных текстах? Конечно! Что будет, если объединить силу…
Выдающийся филолог-структуралист Ролан Барт полагал, что каждый текст — это интертекст, то есть в каждом тексте присутствуют в более или…
Aozora Bunko — это цифровая библиотека, где собраны произведения японской классической литературы, которые находятся в открытом доступе. «Системный Блокъ» рассказывает,…
Что такое «гипотеза Поллианны»? Как она проявляется в зарубежной детской и юношеской литературе? Какие существуют методы, чтобы ее подтвердить или…
Как международная популярность корейских поп-групп повлияла на тексты их песен? Как часто исполнители используют английские слова? Как отличаются песни о…
Цифровой гербарий МГУ — это более 1.3 млн отсканированных образцов растений, из которых почти миллион уже снабжены машиночитаемой геопривязкой, а…
Век цифровых технологий и новых образовательных стандартов не смог стереть интерес к старым, в том числе советским и дореволюционным, учебникам.…
Что влияет на распределение содержательных слов в тексте сильнее: литературная традиция или внешние факторы? Кирилл Маслинский, исследователь литературы, сотрудник Пушкинского…
Популярная музыка транслирует социальные нормы. Чем популярнее музыка, тем больше людей могут себя с ней соотнести. На какие детали быта…
Мы собрали лучшие материалы «Системного Блока», посвящённые главной цифровой коллекции текстов на русском языке: художественных, научных, церковнославянских, диалектных, списанных с…
«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов:…
Применить цифровые технологии к пьесам Шекспира? Да легко! Если вы хотите проанализировать связи между персонажами драматических текстов, то в этом…
Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса…
Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной…
С ноября 2021 года пользователям доступна вторая, улучшенная версия датасета.
В октябре «Системный блокъ» опубликовал корпусное исследование русской классики, в котором были проанализированы произведения школьной программы. Тогда в анализ текста…
Что общего у национального корпуса русского языка и бомбардировщиков? Как преодолеть системные искажения в больших культурных данных? Заметки о том,…
Продолжаем рассказывать о том, как русские писатели описывали женщин и мужчин и можно ли измерить гендерное неравенство в литературе. В…
Разбираемся, как работает DraCor — программируемый корпус текстов на 23-х языках, с помощью которого можно прочитать пьесу, наглядно рассмотреть отношения…
Мы проанализировали все речи президентов, которые произносились в честь 9 мая с 2000 года. О том, как эти выступления влияют…
Корпус переводов общественно-политических текстов XVIII века помогает проследить формирование русского политического языка. В корпусе есть философские трактаты, художественные произведения политического…
Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках
Кому и почему «важно, чтобы корпус жил»? Системный Блокъ узнал, как применяют Национальный корпус русского языка: от школьных исследований до…
Когда мобильный интернет был экзотикой, а отчёты по грантам сдавали на 3,5-дюймовых дискетах... в Рунете уже были цифровые гуманитарные проекты!…
Тематическое моделирование — легкий способ понять смысловой состав большой коллекции текстов, которую невозможно быстро прочесть глазами. Пользоваться инструментами тематического моделирования…
Как то, что мы читаем, влияет на нашу жизнь
Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики…
Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать…
Исследование священных текстов с помощью методов автоматической обработки языка и статистики — то, с чего начались современные Digital Humanities. Сегодня…
Чему учат в современной началке? Могут ли современные количественные методы помочь в поиске объективных ответов на методические вопросы? Специально ко…
Элегия — ключевой поэтический жанр «золотого века» русской поэзии. Что можно узнать о нем, используя количественные методы, такие как подсчет…
Рассказываем, что такое mystem и antconc, для чего они нужны, и как ими пользоваться
Почему в начале английского романа ты должен пообедать, а в конце жениться... или умереть? Рассказываем, когда у мистера Дарси наступает…
Первого мая режиссер и волшебник Уэс Андерсон отмечает пятидесятилетний юбилей. Перечитываем его фильмографию и делаем визуализацию. Так, как ее сделал…
Когда фантасты начали писать про искусственный интеллект и магический феминизм и разлюбили инопланетян?
Как аннотировать тексты, используя метод для подсчёта рейтинга шахматистов?
“Гумилёва считали?”: лингвист и популяризатор Александр Пиперски рассказывает, как открыл для себя количественные методы, что из этого получилось и зачем…
Обкачиваем соцсеть своими руками
Можно ли рассказать об эмоциях, привязав их к определенному месту? А что, если эмоции фиктивные, и содержатся только в литературных…
Краткая инструкция о том, как просто собрать данные из твиттера для своего исследования
Стихи и тексты песен, написанные искусственными нейросетями, стали медийным мейнстримом. Но зачем они нужны? Может ли нейропоэзия помочь иследователю в…