
Как узнать тематический состав корпуса для обучения LLM
Датасет в машинном обучении — структурированный набор данных, который используется для тренировки моделей. Чтобы обучить большую языковую модель (LLM), датасеты должны быть крупными. Сегодня посмотрим на инструмент BunkaTopics, который позволяет исследовать их — узнавать тематическую составляющую, очищать и проверять, нет ли в данных смещения.