OpenAI и Microsoft строят суперкомпьютер для нейросетей, модель Claude 3 Opus от Anthropic обошла GPT-4 в одном из основных рейтингов, Илон Маск опубликовал свою большую языковую модель без цензуры.
Модель Claude 3 Opus компании Anthropic была признана лучшей языковой моделью согласно рейтингу платформы LMSYS, опередив предыдущего лидера GPT-4. На этой платформе любой желающий может сравнить работу двух разных языковых моделей и отдать предпочтение одной из них. На основе собранных предпочтений пользователей по системе Elo рассчитывается позиция модели в рейтинге. Та же система используется для сравнений двух игроков в парных играх — например, в шахматах.
В сравнении LMSYS присутствуют как коммерческие модели (GPT-4, Gemini, Mistral Medium и др.), так и публично доступные модели вроде OpenChat, Command-R, LLama.
Семейство моделей Claude 3 (версии Opus, Sonnet и Haiku) были представлены 4 марта 2024 года. Более компактные версии модели, Sonnet и Haiku, также занимают лидирующие позиции.
По словам трёх источников издания The Information, Microsoft и OpenAI разрабатывают проект нескольких беспрецедентно энергозатратных суперкомпьютеров для обучения нейросетей. Завершение работы над первым суперкомпьютером планируется в 2026 году, его стоимость составит около 10 миллиардов долларов. Выпуск второго суперкомпьютера планируется к 2028 году и оценивается в 100 миллиардов долларов. Стоимость обоих значительно превосходит стоимость существующих компьютеров. Оба вычислительных центра будут расположены в Америке.
Лаборатория AI21 опубликовала языковую модель Jamba. Архитектура Jamba является гибридом Mamba и Transformer. Благодаря этому модель сочетает преимущества обеих архитектур: она поддерживает большую длину контекста (256 тысяч токенов), в несколько раз быстрее и ресурсоэффективнее обычных Transformer моделей и при этом по качеству сопоставима с лучшими публичными моделями. Jamba доступна для всех желающих, в том числе для коммерческого использования.
Лаборатория xAI Илона Маска опубликовала код и веса своей первой языковой модели Grok-1. Grok-1 содержит 314 миллиардов параметров, что делает её самой большой публичной моделью. Модель является Mixture of Experts, другими словами, во время её работы используются только 25% параметров, а набор задействованных параметров зависит от входных данных. Будучи верным своему скандальному имиджу, Илон Маск опубликовал модель, в которой нет цензуры (в отличие от большинства конкурентов).
Публикация Grok-1 в открытый доступ была сделана на фоне иска против OpenAI, поданного Илоном Маском. В нём миллиардер обвиняет компанию в несоблюдении изначальных соглашений (Илон Маск — один из первых инвесторов OpenAI), согласно которым OpenAI должна быть открытой и некоммерческой.
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…