👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️
«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
Проект «Прожито» начался с небольшой группы волонтёров, собиравших и оцифровывавших личные дневники. Сегодня это крупный центр по цифровой архивации эго-документов: дневников, мемуаров, писем и других личных свидетельств времени. Основатель «Прожито» Михаил Мельниченко рассказал «Системному Блоку» о том, кто и как приносит документы для оцифровки, откуда берутся тысячи волонтёров и как изменится «Прожито» в ближайшем будущем.
Применить цифровые технологии к пьесам Шекспира? Да легко! Если вы хотите проанализировать связи между персонажами драматических текстов, то в этом вам поможет интернет-ресурс DraCor. Пройдите наш тест и проверьте, насколько хорошо вы знаете, как работает DraCor!
Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. В этой статье мы расскажем про русско-китайский параллельный корпус в составе Национального корпуса русского языка.
Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.
С ноября 2021 года пользователям доступна вторая, улучшенная версия датасета.
В октябре «Системный блокъ» опубликовал корпусное исследование русской классики, в котором были проанализированы произведения школьной программы. Тогда в анализ текста Пушкина вошли «Евгений Онегин» и «Руслан и Людмила». Внимательные читатели заметили, что исследователи упустили не менее важные произведения классика – «Повести покойного Ивана Петровича Белкина» и «Капитанскую дочку», которые также входят в школьную программу. Мы посчитали такие замечания справедливыми и решили провести дополнительный анализ
Продолжаем рассказывать о том, как русские писатели описывали женщин и мужчин и можно ли измерить гендерное неравенство в литературе. В прошлый раз досталось Пушкину и Толстому, на этот раз смотрим на Набокова и Булгакова
Разбираемся, как работает DraCor — программируемый корпус текстов на 11-ти языках, с помощью которого можно прочитать пьесу, наглядно рассмотреть отношения между персонажами и даже поиграть в карточную игру
Мы проанализировали все речи президентов, которые произносились в честь 9 мая с 2000 года. О том, как эти выступления влияют на нашу коллективную память и помогают легитимировать власть, читайте в исследовании СБъ
Корпус переводов общественно-политических текстов XVIII века помогает проследить формирование русского политического языка. В корпусе есть философские трактаты, художественные произведения политического характера, учебники и словари
Проект «Дальнее чтение для европейской литературной истории» выпустил собрание старых произведений. В коллекцию вошли 884 романа на 18 языках
Кому и почему «важно, чтобы корпус жил»? Системный Блокъ узнал, как применяют Национальный корпус русского языка: от школьных исследований до изучения перевода культурных реалий
Когда мобильный интернет был экзотикой, а отчёты по грантам сдавали на 3,5-дюймовых дискетах... в Рунете уже были цифровые гуманитарные проекты! Рассказываем в лицах и деталях об одном из них — о параллельном корпусе переводов поэмы «Слово о полку Игореве», которая отметила 13-летие. В конце поста бонус — обзор исследований на основе корпуса
Тематическое моделирование — легкий способ понять смысловой состав большой коллекции текстов, которую невозможно быстро прочесть глазами. Пользоваться инструментами тематического моделирования может каждый — а научиться можно в нашем тьюториале. Здесь вы найдете пошаговое руководство с решением основных технических трудностей
Как то, что мы читаем, влияет на нашу жизнь
Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики для этого делают и какими характеристиками обладает типичный научно-популярный текст?
Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать на характерный выбор слов, конструкций, моделей легко, но как рассказать алгоритму про метафоры или научить его распознавать другие тонкие материи?
Исследование священных текстов с помощью методов автоматической обработки языка и статистики — то, с чего начались современные Digital Humanities. Сегодня статистика применяется для анализа священных текстов разных религиозных традиций, в том числе исламской. Публикуем перевод недавней работы, где анализируется соотношение божественных черт в Коране
Чему учат в современной началке? Могут ли современные количественные методы помочь в поиске объективных ответов на методические вопросы? Специально ко Дню Знаний мы проанализировали более 20 тыс. заданий в учебниках по русскому языку 1-4 классов и постарались разобраться, чему же чаще всего учат в начальной школе
Элегия — ключевой поэтический жанр «золотого века» русской поэзии. Что можно узнать о нем, используя количественные методы, такие как подсчет статистики словоупотреблений, тематическое моделирование, регрессионный анализ длины стихотворений? Рассказывает филолог Тоня Мартыненко (Тартуский университет)
Рассказываем, что такое mystem и antconc, для чего они нужны, и как ими пользоваться
Почему в начале английского романа ты должен пообедать, а в конце жениться... или умереть? Рассказываем, когда у мистера Дарси наступает кризис среднего возраста, Оливер Твист превращается из мальчика в тинейджера, а главное, при чем тут ключевые слова и как они могут влиять на структуру романного сюжета?
Первого мая режиссер и волшебник Уэс Андерсон отмечает пятидесятилетний юбилей. Перечитываем его фильмографию и делаем визуализацию. Так, как ее сделал бы Уэс, конечно!
Когда фантасты начали писать про искусственный интеллект и магический феминизм и разлюбили инопланетян?
Как аннотировать тексты, используя метод для подсчёта рейтинга шахматистов?
“Гумилёва считали?”: лингвист и популяризатор Александр Пиперски рассказывает, как открыл для себя количественные методы, что из этого получилось и зачем они нужны филологу-исследователю
Можно ли рассказать об эмоциях, привязав их к определенному месту? А что, если эмоции фиктивные, и содержатся только в литературных произведениях? Что получится, если соединить городскую географию, эмоции, литературу и количественный анализ?
Краткая инструкция о том, как просто собрать данные из твиттера для своего исследования
Стихи и тексты песен, написанные искусственными нейросетями, стали медийным мейнстримом. Но зачем они нужны? Может ли нейропоэзия помочь иследователю в анализе словесного искусства? Отвечает кандидат филологических наук Борис Орехов