NLP

GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели

OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.

Claude 3 Opus возглавила рейтинг языковых моделей

Модель Claude 3 Opus компании Anthropic была признана лучшей языковой моделью согласно рейтингу платформы LMSYS, опередив предыдущего лидера GPT-4. На этой платформе любой желающий может сравнить работу двух разных языковых моделей и отдать предпочтение одной из них. На основе собранных предпочтений пользователей по системе Elo рассчитывается позиция модели в рейтинге. Та же система используется для сравнений двух игроков в парных играх — например, в шахматах.

В сравнении LMSYS присутствуют как коммерческие модели (GPT-4, Gemini, Mistral Medium и др.), так и публично доступные модели вроде OpenChat, Command-R, LLama.

Семейство моделей Claude 3 (версии Opus, Sonnet и Haiku) были представлены 4 марта 2024 года. Более компактные версии модели, Sonnet и Haiku, также занимают лидирующие позиции.

Слухи о суперкомпьютере Microsoft и OpenAI

По словам трёх источников издания The Information, Microsoft и OpenAI разрабатывают проект нескольких беспрецедентно энергозатратных суперкомпьютеров для обучения нейросетей. Завершение работы над первым суперкомпьютером планируется в 2026 году, его стоимость составит около 10 миллиардов долларов. Выпуск второго суперкомпьютера планируется к 2028 году и оценивается в 100 миллиардов долларов. Стоимость обоих значительно превосходит стоимость существующих компьютеров. Оба вычислительных центра будут расположены в Америке.

Jamba – новая языковая модель гибридной архитектуры

Лаборатория AI21 опубликовала языковую модель Jamba. Архитектура Jamba является гибридом Mamba и Transformer. Благодаря этому модель сочетает преимущества обеих архитектур: она поддерживает большую длину контекста (256 тысяч токенов), в несколько раз быстрее и ресурсоэффективнее обычных Transformer моделей и при этом по качеству сопоставима с лучшими публичными моделями. Jamba доступна для всех желающих, в том числе для коммерческого использования.

Модель Grok-1 выложена в открытый доступ

Лаборатория xAI Илона Маска опубликовала код и веса своей первой языковой модели Grok-1. Grok-1 содержит 314 миллиардов параметров, что делает её самой большой публичной моделью. Модель является Mixture of Experts, другими словами, во время её работы используются только 25% параметров, а набор задействованных параметров зависит от входных данных. Будучи верным своему скандальному имиджу, Илон Маск опубликовал модель, в которой нет цензуры (в отличие от большинства конкурентов).

Публикация Grok-1 в открытый доступ была сделана на фоне иска против OpenAI, поданного Илоном Маском. В нём миллиардер обвиняет компанию в несоблюдении изначальных соглашений (Илон Маск — один из первых инвесторов OpenAI), согласно которым OpenAI должна быть открытой и некоммерческой.

Share

Recent Posts

Обратная сторона навигаторов: куда нас ведут электронные карты и что с этим бывает не так

«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…

10.06.2026

ИИ-компании готовятся к IPO, новые модели от Google и Microsoft

SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…

09.06.2026

Как Япония оцифровывает повседневность и почему это важно

Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…

05.06.2026