Яна Хлусова

Лингвист, потерянный в матрицах.

Что делать лингвисту в NLP в эпоху LLM

Вы — лингвист и вам кажется, что ваш труд теряет ценность на фоне успеха больших языковых моделей? Не спешите с…

28.05.2026

Как узнать тематический состав корпуса для обучения LLM

Датасет в машинном обучении — структурированный набор данных, который используется для тренировки моделей. Чтобы обучить большую языковую модель (LLM), датасеты…

17.09.2025

Что это за персонаж? Отвечает LLM

Подумайте о своем любимом книжном персонаже. Как он выглядит? что думает? как взаимодействует с другими? Мы можем описать образ героя,…

13.05.2025

Какие языковые модели (LLM) хорошо пересказывают истории

Иногда сложно понять, что же хотел сказать автор своим сочинением, а пересказать текст кажется нереальной задачей — из-за необычной структуры…

14.02.2025

Библиотека Faststylometry: стилометрия на Python

«Системный Блокъ» часто пишет о стилометрии и выпустил несколько учебных материалов (базовый, продвинутый и ещё один) о том, как провести…

10.09.2024

Какие слова отличают один корпус от другого? Продолжаем изучать Stylo

В исследованиях по определению авторства и количественному анализу стиля широко используется метод Дельта филолога Джона Бёрроуза. Однако Дельта — не…

14.05.2024

Кто какую часть произведения написал? Выясняем с помощью Stylo

«‎Системный Блокъ» уже рассказывал, что такое стилометрия, и как сделать её своими руками с помощью библиотеки Stylo на языке программирования…

04.02.2024

Что общего у литературы и биологии, или Как развивались Digital Humanities в России

Точные методы в гуманитарных науках появились задолго до компьютеров — и в России их история перевалила уже за полтора века.…

04.10.2023

Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru

Подкорпус Национального корпуса русского языка, в котором можно изучать ударения русских слов, содержит произведения поэтов-любителей с сайта Стихи.ру. Каким образом…

07.09.2023