Компания Anthropic выпустила новое поколение языковых моделей Claude 4. Основные улучшения связаны с генерацией программного кода и использованием внешних инструментов: браузера, командной строки, файловой системы.
Флагманская модель Claude Opus 4 показала лучший результат на тесте SWE-bench для ИИ-агентов в разработке. Обновленный Claude Sonnet 4 также продемонстрировал улучшения в генерации кода, но остался на уровне предыдущей версии в остальных задачах.
Anthropic опубликовала технический отчет с результатами тестирования поведения моделей. В некоторых сценариях Claude 4 демонстрировал поведение, связанное с обманом, саботажем, шантажом и самовольной инициативой. Компания заявила, что приняла повышенные меры безопасности при релизе.