Модель доступна в двух вариациях — базовой и продвинутой Grok 4 Heavy. Обе модели в основных тестах показывают результаты выше или сопоставимые с лидерами рынка. Grok 4 опередила OpenAI o3, Google Gemini 2.5 Pro, Anthropic Claude 4 в одном из самых сложных на данный момент тесте Humanity’s Last Exam. Экзамен содержит 2500 вопросов из разных сфер знаний, составленных профессорами и исследователями. Эти вопросы публичны и могут использоваться разработчиками для обучения своих моделей. Тестирование проводится на недоступных в интернете вопросах — это снижает риск утечки данных в обучающую выборку и делает оценку моделей объективнее. Grok 4 и Grok 4 Heavy доступны владельцам платной подписки xAI, а также через API.
Контекст
В отличие от других крупных ИИ-лабораторий, xAI уделяет меньше внимания безопасности своих моделей. Обычно перед релизом языковые модели обучают не генерировать потенциально опасные или оскорбительные ответы — например, рецепты биологического оружия, наркотических веществ или неполиткорректные высказывания о расовой дискриминации. А также выпускают подробные отчеты о способностях моделей нарушать эти ограничения — пример отчета для Claude 4.
Такое отношение к цензуре продиктовано желанием Илона Маска создать «объективную» модель, не подверженную влиянию левой woke-культуры. Последствия подобной политики проявились в недавнем скандале с Grok 3, интегрированной в соцсеть X (бывший Twitter). На некоторое время модель стала считать себя персонажем игры Wolfenstein 3D — MechaHitler — и генерировала антисемитские высказывания. Также она оскорбила премьер-министра Польши. После жалоб пользователей разработчики временно отключили модель, а через четыре дня компания извинилась и вернула в работу исправленную версию.