Новые рассуждающие модели от OpenAI и Google, open-source-конкурент GPT и Claude

Новая модель o3 от OpenAI вырывается вперёд, китайская DeepSeek создала конкурента для лучших LLM, Google выпустила свою первую рассуждающую модель — что произошло в мире ИИ за последнее время.

Вторая версия модели o1

OpenAI представила обновление языковой модели o1, которая способна выстраивать логические рассуждения перед ответом. Новая версия получила название o3, поскольку название o2 уже используется британским оператором связи.

o3 превосходит все существующие модели в тестах на программирование и решение математических задач. В одном из самых сложных математических тестов предыдущая лучшая модель решила лишь 2% задач, тогда как o3 справилась с 25%. Кроме того, o3 стала первой моделью, сумевшей решить большую часть задач из бенчмарка ARC-AGI, который проверяет способность находить закономерности в данных, отсутствовавших в обучающей выборке. В этом тесте o3 решила 75,7% задач (против 53,6% у предыдущего лучшего метода), а при использовании более длинных цепочек рассуждений результат достиг 87,5%. Для сравнения: GPT-3 не способна решить ни одной задачи, а GPT-4 справляется лишь с 5%.

В «экономном» режиме на решение одной задачи o3 расходует вычислительные ресурсы стоимостью около 20 долларов, а при использовании более длинных рассуждений требуется примерно в 172 раза больше вычислительных ресурсов.

Авторы ARC-AGI отметили, что, несмотря на высокий результат, модель всё ещё не может решить множество простых задач. Вторая, более сложная версия бенчмарка должна выйти в следующем году.

Обновление пока не доступно для публичного использования.

Google выпустила первую рассуждающую модель

Корпорация Google представила модель Gemini 2.0 Flash Thinking. Эта версия является модификацией недавно выпущенной Gemini 2.0 Flash и в отличие от базовой версии способна генерировать рассуждения, что повышает качество ответов и позволяет модели решать более сложные задачи.

Новая модель заняла первое место в рейтинге Chatbot Arena, основанном на оценках пользователей. Предыдущим лидером была GPT-4o. Модель уже доступна для использования через API.

Всё больше лабораторий и компаний выпускают рассуждающие модели. В частности, мы также рассказывали об открытых моделях QwQ и DeepSeek-R1.

DeepSeek 3 – новый открытый конкурент лучших LLM

Китайская компания DeepSeek представила третью версию своей языковой модели. DeepSeek 3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос: DeepSeek 3 задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса.

В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6, LLama 3 и Qwen2.5. На обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.

DeepSeek 3 и техническая документация по её разработке находятся в открытом доступе. Модель также доступна через API.

Автор: Михаил Ким

Редактор: Системный Блокъ

Иллюстратор: Марина Панкова

Теги:claude sonnet, deepseek, gemini, GPT-3, GPT-4, open source, OpenAI

Новые рассуждающие модели от OpenAI и Google, open-source-конкурент GPT и Claude

Вторая версия модели o1

Google выпустила первую рассуждающую модель

DeepSeek 3 – новый открытый конкурент лучших LLM

О проекте

СОЦСЕТИ

Теги

Темы

Новые рассуждающие модели от OpenAI и Google, open-source-конкурент GPT и Claude

Вторая версия модели o1

Google выпустила первую рассуждающую модель

DeepSeek 3 – новый открытый конкурент лучших LLM

Читать по теме:

Новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3: дайджест новостей из мира ИИ

«С экзамена в тюрьму с ChatGPT»: чей рассказ лучше, нейросети или писателя?

О проекте

СОЦСЕТИ

Теги

Темы