ИИ-браузер от создателей ChatGPT, DeepSeek предлагает заменить текст для LLM картинками: что нового в мире ИИ

Браузер от OpenAI

Компания OpenAI представила браузер ChatGPT Atlas со встроенными ИИ-функциями.

Во время посещения веб-сайтов пользователь может задавать вопросы ChatGPT, который будет использовать содержимое страницы как контекст. Например, находясь на сайте отеля, у чат-бота можно узнать о ближайших достопримечательностях, а на сайте аэропорта — уточнить наличие комнаты матери и ребенка. ChatGPT также способен автономно выполнять задачи вроде сборки заказа по предоставленному списку или заполнения таблиц.

Ещё одна функция — умный поиск по истории браузера. Например, ИИ можно, попросить открыть сайт магазина, который вы посетили на прошлой неделе.

В целях безопасности агенту запрещено скачивать файлы и исполнять код. Для потенциально опасных действий, например, денежных переводов, система будет требовать ручного подтверждения. Кроме того, пользователь может вручную запретить ChatGPT доступ к выбранным страницам.

ChatGPT Atlas доступен для пользователей Mac. Количество запросов зависит от типа подписки.

Почему это важно?

Многие компании разрабатывают продукты для автоматизации поиска и выполнения задач в интернете. Google встроила языковую модель Gemini в браузер Chrome, Perplexity выпустила ИИ-браузер Comet.

Высокий интерес к этой области объясняется тем, что люди решают огромное количество задач онлайн. Получая доступ к информации о посещаемых сайтах и действиях на них, компании лучше понимают потребности и интересы пользователей. Это открывает возможности как для улучшения продуктов, так и для монетизации.

Например, ChatGPT может встраивать релевантную рекламу в ответы, основываясь на контексте просматриваемой страницы. Компании также могут собирать историю взаимодействия с различными сайтами для обучения своих агентов.

Новый способ подачи текста языковой модели от DeepSeek

Лаборатория DeepSeek предложила представлять текст для языковых моделей в виде изображения.

Традиционно, перед подачей в языковую модель текст разбивают на последовательность слов или их фрагментов (токены). Например, текст «как твои дела» может быть представлен последовательностью токенов: «как», «тв», «ои», «дела».

У этого подхода есть ряд недостатков, влияющих на качество модели. Например, одна и та же фраза может разбиваться по-разному в зависимости от контекста. Кроме того, качество разбиения текста на токены сильно варьируется между языками — это одна из главных причин, почему LLM работают хуже с не английскими текстами.

Другая проблема — низкая эффективность сжатия. Один токен соответствует в среднем 2–3,5 символам, то есть текст длиной 3000 символов требует обработки около 1000 токенов. Современные LLM номинально поддерживают работу с текстами длиной до ~200 тысяч токенов. Однако на практике уже после нескольких десятков тысяч токенов модель начинает забывать контекст или путаться. Также с ростом числа входных токенов увеличивается потребление памяти компьютера.

Изображения разбиваются на «визуальные» токены: картинку делят сеткой на квадратные фрагменты (обычно 16×16 пикселей), каждый из которых становится токеном. На практике показано, что визуальные токены можно агрегировать, сжимая входную последовательность в несколько раз без потери информации.

DeepSeek применили это наблюдение к тексту: представили его как изображение, применили стандартные методы разбиения на визуальные токены и подали на вход языковой модели.

Эксперименты показали, что это позволяет уменьшить длину последовательности в десять раз по сравнению с обычным текстовым разбиением без ущерба качеству. Даже при сжатии в 20 раз модель сохраняет 60% исходного качества.

Визуальное представление также более универсально: в отличие от текста, который можно произвольно разбить на разные фрагменты символов, изображение всегда делится на фрагменты одних и тех же пикселей.

Почему это важно?

Исследователи уже давно пытаются заменить процесс разбиения текста на символьные токены более универсальными и надежными способами. Решение этой задачи поможет повысить качество работы LLM не в одной конкретной области, а во всех сразу, поскольку языковые модели оперируют токенами как фундаментальными строительными блоками.

Методы, позволяющие более компактно представлять текст, особенно актуальны для эффективной работы с длинными документами. Способность обрабатывать объемные тексты необходима для применения LLM в задачах анализа больших массивов данных — например, архивных материалов или кодовых баз. Кроме того, это важно для разработки ИИ-агентов, которые на каждом промежуточном шаге выполнения задачи генерируют развернутые рассуждения.

Автор: Михаил Ким

Теги:deepseek, OpenAI, ИИ, нейросети

ИИ-браузер от создателей ChatGPT, DeepSeek предлагает заменить текст для LLM картинками: что нового в мире ИИ

Браузер от OpenAI

Новый способ подачи текста языковой модели от DeepSeek

О проекте

СОЦСЕТИ

Теги

Темы

ИИ-браузер от создателей ChatGPT, DeepSeek предлагает заменить текст для LLM картинками: что нового в мире ИИ

Браузер от OpenAI

Новый способ подачи текста языковой модели от DeepSeek

Читать по теме:

Нейротикток от OpenAI, новая модель Anthropic, новый тест для LLM

Нейросети помогают ученым исследовать уравнения, LLM побеждают в олимпиаде по программированию

О проекте

СОЦСЕТИ

Теги

Темы