Теперь у некоторых новостей появился раздел «Контекст», в котором вы можете узнать, почему мы считаем выбранные новости важными или примечательными.
Grok 4 от Илона Маска
Лаборатория Илона Маска xAI представила четвертую версию своей языковой модели Grok.
Модель доступна в двух вариациях — базовой и продвинутой Grok 4 Heavy. Обе модели в основных тестах показывают результаты выше или сопоставимые с лидерами рынка. Grok 4 опередила OpenAI o3, Google Gemini 2.5 Pro, Anthropic Claude 4 в одном из самых сложных на данный момент тесте Humanity’s Last Exam. Экзамен содержит 2500 вопросов из разных сфер знаний, составленных профессорами и исследователями. Эти вопросы публичны и могут использоваться разработчиками для обучения своих моделей. Тестирование проводится на недоступных в интернете вопросах — это снижает риск утечки данных в обучающую выборку и делает оценку моделей объективнее. Grok 4 и Grok 4 Heavy доступны владельцам платной подписки xAI, а также через API.
Контекст
В отличие от других крупных ИИ-лабораторий, xAI уделяет меньше внимания безопасности своих моделей. Обычно перед релизом языковые модели обучают не генерировать потенциально опасные или оскорбительные ответы — например, рецепты биологического оружия, наркотических веществ или неполиткорректные высказывания о расовой дискриминации. А также выпускают подробные отчеты о способностях моделей нарушать эти ограничения — пример отчета для Claude 4.
Такое отношение к цензуре продиктовано желанием Илона Маска создать «объективную» модель, не подверженную влиянию левой woke-культуры. Последствия подобной политики проявились в недавнем скандале с Grok 3, интегрированной в соцсеть X (бывший Twitter). На некоторое время модель стала считать себя персонажем игры Wolfenstein 3D — MechaHitler — и генерировала антисемитские высказывания. Также она оскорбила премьер-министра Польши. После жалоб пользователей разработчики временно отключили модель, а через четыре дня компания извинилась и вернула в работу исправленную версию.
Агент от OpenAI
Компания OpenAI представила ИИ-агента ChatGPT Agent — систему, использующую модели искусственного интеллекта для автономного выполнения задач на компьютере. Агент способен составлять детальные планы путешествий с учетом бюджета, интересов и предпочтений пользователя, анализировать финансовые отчеты и формировать итоговые таблицы, создавать презентации на заданные темы и выполнять множество других задач.
ChatGPT Agent объединяет возможности двух ранее представленных продуктов компании — Operator и Deep Research. Operator умеет взаимодействовать с интерфейсами компьютерных программ (кликать, вводить текст, прокручивать экран) и автоматизировать выполнение различных задач. Deep Research специализируется на поиске, агрегации и анализе информации из интернета. Комбинация этих возможностей позволяет новому агенту более эффективно справляться с поставленными задачами.
Кроме того, агент может взаимодействовать с внешними сервисами (Gmail, Google Calendar, Notion и другими) через протокол MCP, который унифицирует доступ языковых моделей к различным платформам. Подробнее об MCP мы писали здесь.
В тестировании агент продемонстрировал лучший результат в Humanity’s Last Exam и превзошел модели o3 и o4 в тестах на автоматизацию задач. В одном из внутренних тестов агент выполнил половину набора «экономически значимых» задач лучше экспертов-людей.
ChatGPT Agent станет доступен владельцам подписки в ближайшие недели.
Контекст
Агентные системы с использованием языковых моделей — главный тренд 2024–2025 годов. Постоянно улучшающиеся способности моделей позволяют (полу-)автоматизировать все большее количество рутинных задач.
Одним из примеров относительно успешного внедрения агентов является сфера разработки ПО — здесь ИИ существенно повышает продуктивность программистов. Генеральный директор Microsoft заявляет, что 30% кода в компании сейчас пишет искусственный интеллект. А глава Shopify объявил использование ИИ для разработки новым обязательным требованием к сотрудникам.
Независимые исследователи считают развитие агентов важным этапом в прогрессе ИИ, поскольку они смогут продемонстрировать политикам экономическую выгоду от искусственного интеллекта. Это приведет к более глубокой интеграции ИИ в рабочие процессы и увеличению инвестиций.
В то же время многие опасаются кризиса на рынке труда из-за потенциальной замены людей ИИ-системами. Сообщества иллюстраторов и художников в большинстве своем выступают против инструментов для генерации изображений и видео, считая, что искусственный интеллект не должен замещать человека в творческих сферах.
Kimi K2 — самая большая языковая модель в open-source
Китайская лаборатория MoonshotAI опубликовала языковую модель Kimi K2 с 1 триллионом параметров. Это первая модель такого размера в открытом доступе.
LLM использует архитектуру Mixture of Experts: во время генерации ответа модель задействует лишь часть всех параметров (их называют активными). Какие именно параметры используются, зависит от конкретного запроса пользователя. Всего у модели 32 млрд активных параметров — 3,2% от общего числа. Вместе с моделью лаборатория выпустила технический отчет. До выхода Kimi K2 самой большой открытой моделью была DeepSeek V3, которая в 1,5 раза меньше.
Модель не способна генерировать цепочки рассуждений. В сравнении с моделями без режима рассуждений Kimi K2 либо сопоставима, либо существенно превосходит конкурентов — особенно в задачах программирования.
Модель доступна для тестирования на официальном сайте или через API.
Контекст
На рынке языковых моделей существуют проприетарные решения, разрабатываемые крупными лабораториями и корпорациями, и открытые модели, чаще (но не всегда) создаваемые независимыми компаниями.
Из-за высокой конкуренции создатели проприетарных LLM не раскрывают технические подробности своих моделей — в частности, не публикуют детальные технические отчеты и статьи. Разработчики открытых решений, напротив, раскрывают технические детали, публикуют сами модели и иногда код для их обучения, что особенно важно из-за инженерной сложности обучения моделей такого масштаба.
Open-source сообщество вносит большой вклад в развитие всей области — зачастую проприетарные компании используют его разработки. Также оно создает серьезную конкуренцию коммерческим решениям, поскольку пользователи и бизнес могут разворачивать открытые модели на собственных серверах.
Обучение больших языковых моделей крайне сложно и дорого. До этого обучать модели размером порядка триллиона параметров умели только коммерческие компании уровня OpenAI и Google. Появление открытой модели с триллионом параметров стало большим достижением сообщества, сократившим разрыв с закрытыми техногигантами.