Читать нас в Telegram

Лаборатория DeepSeek предложила представлять текст для языковых моделей в виде изображения.

Традиционно, перед подачей в языковую модель текст разбивают на последовательность слов или их фрагментов (токены). Например, текст «как твои дела» может быть представлен последовательностью токенов: «как», «тв», «ои», «дела».

У этого подхода есть ряд недостатков, влияющих на качество модели. Например, одна и та же фраза может разбиваться по-разному в зависимости от контекста. Кроме того, качество разбиения текста на токены сильно варьируется между языками — это одна из главных причин, почему LLM работают хуже с не английскими текстами.

Другая проблема — низкая эффективность сжатия. Один токен соответствует в среднем 2–3,5 символам, то есть текст длиной 3000 символов требует обработки около 1000 токенов. Современные LLM номинально поддерживают работу с текстами длиной до ~200 тысяч токенов. Однако на практике уже после нескольких десятков тысяч токенов модель начинает забывать контекст или путаться. Также с ростом числа входных токенов увеличивается потребление памяти компьютера.

Изображения разбиваются на «визуальные» токены: картинку делят сеткой на квадратные фрагменты (обычно 16×16 пикселей), каждый из которых становится токеном. На практике показано, что визуальные токены можно агрегировать, сжимая входную последовательность в несколько раз без потери информации.

DeepSeek применили это наблюдение к тексту: представили его как изображение, применили стандартные методы разбиения на визуальные токены и подали на вход языковой модели.

Эксперименты показали, что это позволяет уменьшить длину последовательности в десять раз по сравнению с обычным текстовым разбиением без ущерба качеству. Даже при сжатии в 20 раз модель сохраняет 60% исходного качества.

Визуальное представление также более универсально: в отличие от текста, который можно произвольно разбить на разные фрагменты символов, изображение всегда делится на фрагменты одних и тех же пикселей.

Почему это важно?

Исследователи уже давно пытаются заменить процесс разбиения текста на символьные токены более универсальными и надежными способами. Решение этой задачи поможет повысить качество работы LLM не в одной конкретной области, а во всех сразу, поскольку языковые модели оперируют токенами как фундаментальными строительными блоками.

Методы, позволяющие более компактно представлять текст, особенно актуальны для эффективной работы с длинными документами. Способность обрабатывать объемные тексты необходима для применения LLM в задачах анализа больших массивов данных — например, архивных материалов или кодовых баз. Кроме того, это важно для разработки ИИ-агентов, которые на каждом промежуточном шаге выполнения задачи генерируют развернутые рассуждения.