Читать нас в Telegram

Вторая версия модели o1

OpenAI представила обновление языковой модели o1, которая способна выстраивать логические рассуждения перед ответом. Новая версия получила название o3, поскольку название o2 уже используется британским оператором связи.

o3 превосходит все существующие модели в тестах на программирование и решение математических задач. В одном из самых сложных математических тестов предыдущая лучшая модель решила лишь 2% задач, тогда как o3 справилась с 25%. Кроме того, o3 стала первой моделью, сумевшей решить большую часть задач из бенчмарка ARC-AGI, который проверяет способность находить закономерности в данных, отсутствовавших в обучающей выборке. В этом тесте o3 решила 75,7% задач (против 53,6% у предыдущего лучшего метода), а при использовании более длинных цепочек рассуждений результат достиг 87,5%. Для сравнения: GPT-3 не способна решить ни одной задачи, а GPT-4 справляется лишь с 5%.

В «экономном» режиме на решение одной задачи o3 расходует вычислительные ресурсы стоимостью около 20 долларов, а при использовании более длинных рассуждений требуется примерно в 172 раза больше вычислительных ресурсов.

Авторы ARC-AGI отметили, что, несмотря на высокий результат, модель всё ещё не может решить множество простых задач. Вторая, более сложная версия бенчмарка должна выйти в следующем году.

Обновление пока не доступно для публичного использования.

Google выпустила первую рассуждающую модель

Корпорация Google представила модель Gemini 2.0 Flash Thinking. Эта версия является модификацией недавно выпущенной Gemini 2.0 Flash и в отличие от базовой версии способна генерировать рассуждения, что повышает качество ответов и позволяет модели решать более сложные задачи.

Новая модель заняла первое место в рейтинге Chatbot Arena, основанном на оценках пользователей. Предыдущим лидером была GPT-4o. Модель уже доступна для использования через API.

Всё больше лабораторий и компаний выпускают рассуждающие модели. В частности, мы также рассказывали об открытых моделях QwQ и DeepSeek-R1.

DeepSeek 3 – новый открытый конкурент лучших LLM

Китайская компания DeepSeek представила третью версию своей языковой модели. DeepSeek 3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос: DeepSeek 3 задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса.

В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6, LLama 3 и Qwen2.5. На обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.

DeepSeek 3 и техническая документация по её разработке находятся в открытом доступе. Модель также доступна через API.