Фото автора

Яна Хлусова

Автор

Лингвист, потерянный в матрицах.

Автор статей

Что делать лингвисту в NLP в эпоху LLM

Вы — лингвист и вам кажется, что ваш труд теряет ценность на фоне успеха больших языковых моделей? Не спешите с выводами. Хотя обработка естественного языка больше не строится на лингвистике и правилах, работа в этой области все еще есть. Лингвисты могут сделать работу ИИ точнее, этичнее и понятнее — от разметки данных до оценки качества генерации

13 стыдных вопросов про LLM

Вы пользуетесь нейросетями, но до сих пор не понимаете, как они работают? Многие стесняются об этом спросить. «Системный Блокъ» сделал это за вас и нашел ответы

Как сделать свой DH-проект: гайд для новичков

Мы не раз писали о цифровых корпусах и собраниях сочинений, исторических базах данных и интерактивных картах. Мы любим рассказывать, как они устроены и что с их помощью можно узнать. А что делать, если вы сами решили создать DH-проект? «Системный Блокъ» проанализировал удачные кейсы и составил для вас гайд.

Как узнать тематический состав корпуса для обучения LLM

Датасет в машинном обучении — структурированный набор данных, который используется для тренировки моделей. Чтобы обучить большую языковую модель (LLM), датасеты должны быть крупными. Сегодня посмотрим на инструмент BunkaTopics, который позволяет исследовать их — узнавать тематическую составляющую, очищать и проверять, нет ли в данных смещения.

Что это за персонаж? Отвечает LLM

Подумайте о своем любимом книжном персонаже. Как он выглядит? что думает? как взаимодействует с другими? Мы можем описать образ героя, перечислив эти и другие черты, или проанализировать его, используя другие внутритекстовые данные. Рассказываем, как с этой задачей справятся большие языковые модели.

Какие языковые модели (LLM) хорошо пересказывают истории

Иногда сложно понять, что же хотел сказать автор своим сочинением, а пересказать текст кажется нереальной задачей — из-за необычной структуры повествования или при использовании разных рассказчиков. Как справляются с подобными задачами LLM? Ученые Колумбийского университета спросили у самих писателей.

Библиотека Faststylometry: стилометрия на Python

«Системный Блокъ» часто пишет о стилометрии и выпустил несколько учебных материалов (базовый, продвинутый и ещё один) о том, как провести собственное исследование с помощью библиотеки Stylo для языка R. А что делать тем, для кого Python удобнее? Рассказываем в новом тьюториале о стилометрии для англоязычных текстов, используя библиотеку Faststylometry.

Какие слова отличают один корпус от другого? Продолжаем изучать Stylo

В исследованиях по определению авторства и количественному анализу стиля широко используется метод Дельта филолога Джона Бёрроуза. Однако Дельта — не единственная придуманная им стилометрическая мера. Дж. Бёрроуз также является автором меры зета, с помощью которой можно сравнивать корпуса текстов. Расчёты на её основе встроены в одну из функций пакета Stylo — oppose().

Кто какую часть произведения написал? Выясняем с помощью Stylo

«‎Системный Блокъ» уже рассказывал, что такое стилометрия, и как сделать её своими руками с помощью библиотеки Stylo на языке программирования R. В новом гайде мы познакомим вас с функцией rolling.classify(), которая может помочь в исследований произведений, написанных в соавторстве.

Что общего у литературы и биологии, или Как развивались Digital Humanities в России

Точные методы в гуманитарных науках появились задолго до компьютеров — и в России их история перевалила уже за полтора века. Вспоминаем, как филологи, историки, лингвисты, математики и другие исследователи развивали количественные подходы к анализу литературы, языка и других гуманитарных объектов — и создавали базу для становления на российский почве Digital Humanities

Что мы узнали об ударении в русском языке и о наивной поэзии из корпуса stihi.ru

Подкорпус Национального корпуса русского языка, в котором можно изучать ударения русских слов, содержит произведения поэтов-любителей с сайта Стихи.ру. Каким образом они могут быть полезны для науки — читайте в нашем материале