NLP

GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели

OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.

02.04.2024

Claude 3 Opus возглавила рейтинг языковых моделей

Модель Claude 3 Opus компании Anthropic была признана лучшей языковой моделью согласно рейтингу платформы LMSYS, опередив предыдущего лидера GPT-4. На этой платформе любой желающий может сравнить работу двух разных языковых моделей и отдать предпочтение одной из них. На основе собранных предпочтений пользователей по системе Elo рассчитывается позиция модели в рейтинге. Та же система используется для сравнений двух игроков в парных играх — например, в шахматах.

В сравнении LMSYS присутствуют как коммерческие модели (GPT-4, Gemini, Mistral Medium и др.), так и публично доступные модели вроде OpenChat, Command-R, LLama.

Семейство моделей Claude 3 (версии Opus, Sonnet и Haiku) были представлены 4 марта 2024 года. Более компактные версии модели, Sonnet и Haiku, также занимают лидирующие позиции.

Слухи о суперкомпьютере Microsoft и OpenAI

По словам трёх источников издания The Information, Microsoft и OpenAI разрабатывают проект нескольких беспрецедентно энергозатратных суперкомпьютеров для обучения нейросетей. Завершение работы над первым суперкомпьютером планируется в 2026 году, его стоимость составит около 10 миллиардов долларов. Выпуск второго суперкомпьютера планируется к 2028 году и оценивается в 100 миллиардов долларов. Стоимость обоих значительно превосходит стоимость существующих компьютеров. Оба вычислительных центра будут расположены в Америке.

Jamba – новая языковая модель гибридной архитектуры

Лаборатория AI21 опубликовала языковую модель Jamba. Архитектура Jamba является гибридом Mamba и Transformer. Благодаря этому модель сочетает преимущества обеих архитектур: она поддерживает большую длину контекста (256 тысяч токенов), в несколько раз быстрее и ресурсоэффективнее обычных Transformer моделей и при этом по качеству сопоставима с лучшими публичными моделями. Jamba доступна для всех желающих, в том числе для коммерческого использования.

Модель Grok-1 выложена в открытый доступ

Лаборатория xAI Илона Маска опубликовала код и веса своей первой языковой модели Grok-1. Grok-1 содержит 314 миллиардов параметров, что делает её самой большой публичной моделью. Модель является Mixture of Experts, другими словами, во время её работы используются только 25% параметров, а набор задействованных параметров зависит от входных данных. Будучи верным своему скандальному имиджу, Илон Маск опубликовал модель, в которой нет цензуры (в отличие от большинства конкурентов).

Публикация Grok-1 в открытый доступ была сделана на фоне иска против OpenAI, поданного Илоном Маском. В нём миллиардер обвиняет компанию в несоблюдении изначальных соглашений (Илон Маск — один из первых инвесторов OpenAI), согласно которым OpenAI должна быть открытой и некоммерческой.

Автор: Михаил Ким

Редактор: Системный Блокъ

Иллюстраторы: Евгения Родикова, Даниил Скоринкин

Теги:нейронные сети, суперкомпьютер, языковая модель

Next Что такое тест Тьюринга? »

Previous « Гуманитарные проблемы актуальных наук

Tags: нейронные сетисуперкомпьютерязыковая модель

02.04.2024

В России принят первый закон об ИИ

Документ вводит юридическое определение искусственного интеллекта, а также суверенной и национальной языковых моделей. Им придется проходить проверку на соответствие традиционным…

27.07.2026

Филология

Муза с перфокартами: как компьютеры учились писать стихи за полвека до нейросетей

Генеративная поэзия появилась задолго до ChatGPT. Компьютеры генерируют стихи уже больше 60 лет, а сама мечта заставить машину рифмовать —…

24.07.2026

MLOps для работы с текстом: принципы и минимальный набор инструментов

Как специалисты по машинному обучению наводят порядок при работе с большими корпусами? Что нужно сделать, чтобы эксперимент был воспроизводимым, качество…

20.07.2026