Браузер от OpenAI
Компания OpenAI представила браузер ChatGPT Atlas со встроенными ИИ-функциями.
Во время посещения веб-сайтов пользователь может задавать вопросы ChatGPT, который будет использовать содержимое страницы как контекст. Например, находясь на сайте отеля, у чат-бота можно узнать о ближайших достопримечательностях, а на сайте аэропорта — уточнить наличие комнаты матери и ребенка. ChatGPT также способен автономно выполнять задачи вроде сборки заказа по предоставленному списку или заполнения таблиц.
Ещё одна функция — умный поиск по истории браузера. Например, ИИ можно, попросить открыть сайт магазина, который вы посетили на прошлой неделе.
В целях безопасности агенту запрещено скачивать файлы и исполнять код. Для потенциально опасных действий, например, денежных переводов, система будет требовать ручного подтверждения. Кроме того, пользователь может вручную запретить ChatGPT доступ к выбранным страницам.
ChatGPT Atlas доступен для пользователей Mac. Количество запросов зависит от типа подписки.
Почему это важно?
Многие компании разрабатывают продукты для автоматизации поиска и выполнения задач в интернете. Google встроила языковую модель Gemini в браузер Chrome, Perplexity выпустила ИИ-браузер Comet.
Высокий интерес к этой области объясняется тем, что люди решают огромное количество задач онлайн. Получая доступ к информации о посещаемых сайтах и действиях на них, компании лучше понимают потребности и интересы пользователей. Это открывает возможности как для улучшения продуктов, так и для монетизации.
Например, ChatGPT может встраивать релевантную рекламу в ответы, основываясь на контексте просматриваемой страницы. Компании также могут собирать историю взаимодействия с различными сайтами для обучения своих агентов.
Новый способ подачи текста языковой модели от DeepSeek
Лаборатория DeepSeek предложила представлять текст для языковых моделей в виде изображения.
Традиционно, перед подачей в языковую модель текст разбивают на последовательность слов или их фрагментов (токены). Например, текст «как твои дела» может быть представлен последовательностью токенов: «как», «тв», «ои», «дела».
У этого подхода есть ряд недостатков, влияющих на качество модели. Например, одна и та же фраза может разбиваться по-разному в зависимости от контекста. Кроме того, качество разбиения текста на токены сильно варьируется между языками — это одна из главных причин, почему LLM работают хуже с не английскими текстами.
Другая проблема — низкая эффективность сжатия. Один токен соответствует в среднем 2–3,5 символам, то есть текст длиной 3000 символов требует обработки около 1000 токенов. Современные LLM номинально поддерживают работу с текстами длиной до ~200 тысяч токенов. Однако на практике уже после нескольких десятков тысяч токенов модель начинает забывать контекст или путаться. Также с ростом числа входных токенов увеличивается потребление памяти компьютера.
Изображения разбиваются на «визуальные» токены: картинку делят сеткой на квадратные фрагменты (обычно 16×16 пикселей), каждый из которых становится токеном. На практике показано, что визуальные токены можно агрегировать, сжимая входную последовательность в несколько раз без потери информации.
DeepSeek применили это наблюдение к тексту: представили его как изображение, применили стандартные методы разбиения на визуальные токены и подали на вход языковой модели.
Эксперименты показали, что это позволяет уменьшить длину последовательности в десять раз по сравнению с обычным текстовым разбиением без ущерба качеству. Даже при сжатии в 20 раз модель сохраняет 60% исходного качества.
Визуальное представление также более универсально: в отличие от текста, который можно произвольно разбить на разные фрагменты символов, изображение всегда делится на фрагменты одних и тех же пикселей.
Почему это важно?
Исследователи уже давно пытаются заменить процесс разбиения текста на символьные токены более универсальными и надежными способами. Решение этой задачи поможет повысить качество работы LLM не в одной конкретной области, а во всех сразу, поскольку языковые модели оперируют токенами как фундаментальными строительными блоками.
Методы, позволяющие более компактно представлять текст, особенно актуальны для эффективной работы с длинными документами. Способность обрабатывать объемные тексты необходима для применения LLM в задачах анализа больших массивов данных — например, архивных материалов или кодовых баз. Кроме того, это важно для разработки ИИ-агентов, которые на каждом промежуточном шаге выполнения задачи генерируют развернутые рассуждения.