Читать нас в Telegram

«Адвент-календарь» от OpenAI

С 5 декабря OpenAI ежедневно по будням анонсирует новые разработки и обновления своих продуктов.

Первым стал анонс подписки ChatGPT Pro стоимостью $200 в месяц. Она предоставляет неограниченный доступ ко всем языковым моделям компании, включая o1-pro (версия модели o1, которая рассуждает больше обычной версии), а также содержит все опции базовой подписки ChatGPT Plus за $20 в месяц.

Наиболее значимым событием стал публичный запуск Sora — модели для генерации видео (мы писали о ней ранее). Пользователи с подпиской Plus могут создавать до 50 видео в разрешении 480p или меньшее количество в 720p. Владельцам Pro-подписки доступно в 10 раз больше генераций.

Стала доступна интеграция ChatGPT с Apple Intelligence — системой искусственного интеллекта в последней версии iOS. Когда встроенный ассистент Siri не может ответить на запрос пользователя, система предлагает перенаправить его в ChatGPT.

OpenAI также представила возможность дообучать модель o1 на собственных данных, пока эта функция доступна ограниченному кругу пользователей.

Остальные обновления касаются сервисов компании:

  • представлен новый режим Canvas для эффективной совместной работы над текстовыми документами и программным кодом. ChatGPT может предлагать правки, изменять стиль текста, комментировать код и помогать находить ошибки;
  • в классическом интерфейсе ChatGPT добавлена возможность создавать проекты (папки) для группировки тематически связанных диалогов с общим контекстом;
  • добавлена поддержка работы с видеопотоками: пользователи могут транслировать видео с камеры телефона и одновременно обсуждать происходящее с GPT голосом.

Крупное обновление языковой модели Google

Корпорация Google представила обновлённую версию своей языковой модели — Gemini 2 Flash. По результатам основных тестов новая модель превосходит предыдущую флагманскую версию и работает в полтора раза быстрее.

Gemini 2 Flash способна не только обрабатывать аудио, видео и изображения, но и генерировать их в качестве ответа. Например, при игре в крестики-нолики пользователь может отправить фотографию своего хода, а нейросеть ответит, добавив свой ход прямо на полученное изображение, то есть ответом будет не текст, а изображение.

В обновлении особое внимание уделено развитию агентных способностей модели — возможности выполнять различные задачи в разных средах (например, забронировать столик в ресторане или работать с компьютерными программами). Gemini 2 Flash демонстрирует улучшенные навыки планирования действий и запоминания истории взаимодействий. Кроме того, модель может эффективно работать с внешними инструментами, такими как Google Поиск и Google Maps.

Нейросеть для генерации изображений от xAI

Лаборатория xAI, принадлежащая Илону Маску, представила новую модель Aurora для генерации изображений на основе текстовых описаний.

В отличие от существующих решений, таких как Midjourney, Stable Diffusion и DALL-E, Aurora использует принципиально иной подход к созданию изображений. Она работает подобно языковым моделям, в то время как механизм генерации других систем построен совершенно иначе: как именно, можно прочитать в нашем материале.

Благодаря схожести с языковыми моделями, Aurora может использовать все существующие методы их оптимизации, однако уже для ускорения генерации изображений. Кроме того, модель демонстрирует более высокое качество работы с текстом, особенно при редактировании существующих изображений на основе текстовых инструкций.

Aurora доступна для тестирования в социальной сети X, но только для пользователей из ограниченного числа стран.