Читать нас в Telegram

Sora 2 и нейротикток 

Компания OpenAI представила обновленную версию модели Sora для генерации видео по текстовым описаниям. Новая версия создает более качественные и реалистичные ролики со звуком, тогда как предыдущая генерировала только беззвучные видео. Теперь модель умеет добавлять в кадр конкретных людей и предметы на основе загруженных примеров.

Одновременно с обновлением вышло мобильное приложение Sora для iPhone. Это социальная сеть с короткими роликами, созданными пользователями с помощью Sora 2. Помимо генерации по описанию доступно редактирование чужих работ — можно добавить сюжетный поворот или вставить в видео себя и знакомых. Меньше чем за неделю приложение возглавило топ App Store в категории «‎Фото и видео».

Пока приложение работает только в США и Канаде по приглашениям. Генерация видео временно бесплатна, но в будущем станет платной. Также планируется открыть доступ к модели через API.

Почему это важно?

Модели для генерации видео начали активно развиваться с 2024 года. С тех пор OpenAI, Google и ряд китайских компаний представили решения, способные создавать относительно реалистичные ролики.

Сейчас их используют преимущественно для развлекательного контента — в лентах соцсетей появляется всё больше видео, созданных с помощью ИИ. Существуют опасения, что в будущем компании будут применять такие технологии для генерации крайне персонализированного и вызывающего зависимость контента.

В перспективе генеративные модели могут превратиться в модели мира, способные относительно точно и быстро симулировать физические процессы и ситуации из реальности. Такие симуляции можно использовать для исследования процессов, точный расчет которых слишком ресурсоемок, а также для сбора данных для обучения и тестирования автономных и роботизированных систем. Например, можно будет моделировать редкие дорожные ситуации для проверки автопилотов или рутинные задачи вроде складывания вещей и приготовления пищи для обучения роботов.

Новый Sonnet от Anthropic

Компания Anthropic представила Claude Sonnet 4.5 — новую версию своей языковой модели. По заявлению разработчиков, это лучшая в мире модель для написания кода и создания сложных агентов (программ, использующих ИИ для автономного выполнения задач на компьютере). Sonnet 4.5 также показала значительные улучшения в задачах на логику и математику.

Одно из ключевых улучшений — способность работать автономно до 30 часов без вмешательства человека. Это делает модель особенно полезной для долгосрочных задач вроде разработки программного обеспечения или анализа данных. Sonnet 4.5 также получила улучшения в специализированных областях вроде финансов и медицины.

Почему это важно?

Anthropic – один из главных конкурентов OpenAI. Модели Antropic на протяжении долгого времени остаются лидерами в области программирования и агентных систем.

Тест LLM в реальных рабочих задачах

Компания OpenAI представила GDPval — новый тест для оценки способности языковых моделей выполнять экономически значимые задачи из реального мира.

OpenAI выбрала девять отраслей, каждая из которых вносит более 5% в ВВП США. Затем в каждой отрасли определили пять профессий с наибольшим вкладом в общий фонд оплаты труда, связанных преимущественно с интеллектуальным трудом. Профессия считалась «‎преимущественно интеллектуальной», если минимум 60% ее задач не требовали физической работы.

В итоге в тест вошли 44 профессии. Для каждой специалисты со средним опытом работы 14 лет создали по 30 задач, отражающих реальные рабочие задачи — от юридических заключений до инженерных чертежей и планов медицинского ухода. Каждая задача прошла в среднем пять раундов экспертной проверки. Открытая версия включает 220 задач (по пять на профессию).

Результаты оценивали эксперты из соответствующих профессий в слепом формате — они сравнивали работу моделей с работой людей, не зная, кто автор. Эксперты ранжировали решения и классифицировали их как «‎лучше«», «‎на том же уровне» или «‎хуже» человеческих. Также была обучена автоматизированная модель-оценщик, которая предсказывает суждения экспертов, но ее пока не используют вместо людей из-за недостаточной точности.

В тестировании участвовали несколько моделей OpenAI, Claude Opus 4.1, Gemini 2.5 Pro и Grok 4. Claude Opus 4.1 показала лучший результат (в 43,5% модель оказалась лучше эксперта, еще в 4% — на уровне экспертов), особенно в эстетических аспектах вроде форматирования документов, а GPT-5 отличилась в точности поиска специализированных знаний. При этом производительность более чем удвоилась от GPT-4o (весна 2024) до GPT-5 (лето 2025).

Модели выполняют задачи GDPval примерно в 100 раз быстрее и дешевле экспертов, однако эти цифры не учитывают человеческий контроль и итерации, необходимые в реальных рабочих условиях.

Почему это важно?

Большинство существующих тестов для языковых моделей проверяют академические способности или производительность в узких областях вроде математики и олимпиадного программирования. Поэтому их результаты плохо отражают реальную пользу ИИ в практических задачах. Несмотря на это, в общественной дискуссии активно обсуждается вероятность замены человеческого труда искусственным интеллектом.

GDPval призван тестировать модели на репрезентативных задачах из реальной жизни, чтобы оценить экономический потенциал ИИ и возможные тренды автоматизации труда в будущем.