Что такое capta и чем отличается от больших данных?
Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.
Рассказываем про вид данных, отличающийся от привычных big data, и чем малые данные похожи на археологический раскоп.
«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
Идиостиль — это авторский стиль писателя. И если на небольших стихах его изучать удобно, то вот на текстах Льва Толстого — очень непросто. Рассказываем, как филолог Борис Орехов использует векторно-семантические модели для анализа идиостиля Толстого.
Какие слова чаще встречаются в анекдотах, а какие — в деловых документах? Узнать это можно на сайте Национального корпуса русского языка, на основе которого мы придумали тест. Проверьте, насколько хорошо вы разбираетесь во всем разнообразии текстов на русском языке — от смс-сообщений до классической литературы.
15 марта 2023 года прошёл круглый стол «Digital Humanities в Центральной Азии» — серия панельных дискуссий, на которых учёные из стран Центральной Азии обсудили цифровые гуманитарные исследования и проекты в регионе. Участница Системного Блока сходила на мероприятие и рассказывает, о чем там говорилось.
Национальный корпус русского языка (НКРЯ) — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Изменения в работе НКРЯ были заметны ещё в 2019 году: тогда лингвисты высказали опасения о возможном закрытии сервиса. К счастью, проблемы оказались временными, и НКРЯ не только не прекратил свою работу, но и заметно изменился и расширился. Самым заметным обновлением стал новый дизайн сайта, но есть и много глубоких содержательных перемен. Об основных обновлениях в корпусе, очевидных и не очень — в нашем сегодняшнем материале.
Если вы были в ТикТок, то знаете, что тренд там можно сделать из чего угодно. Пару месяцев назад сотни тысяч просмотров начали набирать записи экрана с сайта Google Books Ngram Viewer, показывающем популярность слова в определенный период времени. Пользователи находят слово «эмо» в 1803 году или упоминание «Звёздных войн» — в 1696
Как генерировать названия детективов в стиле Донцовой с помощью списка фразеологизмов, семантических векторов и морфологического анализатора