Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Создатели Sora рассказали, откуда брали видео для обучения, но кое о чем умолчали. Компания Cohere — один из главных конкурентов OpenAI/ChatGPT — выпустила модель с 35 млрд параметров. Вышла сопоставимая с трансформерами RNN-модель EagleX — неужели рекуррентные нейросети рано хоронить? Рассказываем, что произошло в мире ИИ за прошедшую неделю

Автономный ИИ инженер

Cтартап Cognition продемонстрировал нейросеть Devin, которая способна выполнять роль инженера машинного обучения. По утверждениям компании, нейросеть может выполнять комплексные задачи, например, разрабатывать веб-сайты, находить и исправлять ошибки в существующей кодовой базе, обучать модели машинного обучения.

Devin протестировали в бенчмарке SWE-bench. Метрика этого теста – процент успешно исправленных моделью ошибок в коде больших публичных проектов. Devin превосходит все предыдущие модели (в том числе GPT-4, Claude и LLaMa), однако процент успешных исправлений всё ещё низок – 13.86%. На данный момент модель доступна по заявкам.

Новые подробности о Sora

Мира Мурати, техническая директриса OpenAI, дала интервью Wall Street Journal, в котором раскрыла новые детали о модели для генерации видео Sora. Вот некоторые из них:

OpenAI планирует добавить генерацию звука к видео в будущем.
Sora была обучена на публично доступных, а также лицензионных видео. На вопрос, были ли использованы видео из YouTube, Instagram и Facebook, Мурати не дала прямого ответа.
В планах компании сократить количество вычислительных ресурсов, необходимых для работы Sora. Цель приблизительно на год – по ресурсозатратности Sora должна быть сопоставима с нейросетью для генерации изображений DALL-E.

Если вам интересно, как устроена модель Sora, то вы можете прочитать наш недавний материал.

Новая модель, которая может заказать вам столик в ресторане

Компания Cohere выпустила в публичный доступ языковую модель Command-R c 35-ю миллиардами параметров. Модель поддерживает 10 языков, в том числе и русский. Command-R хорошо подходит для RAG (Retrieval Augmented Generation) – это техника, при которой помимо вопроса пользователя модели дают на вход набор пар похожих вопросов и ответов на них, тем самым ответ модели получаются более фактологически верным. Например, в случае разработки чат-бота для службы поддержки этот подход особо актуален, поскольку обычно существует большая база часто задаваемых вопросов с правильными ответами.

Также при разработке модели сделали большой упор на способность модели использовать внешние инструменты. Например, в качестве инструмента может выступать браузер. Описав задачу (пример задачи – бронь столика в ресторане через его сайт) и функционал инструмента (поиск, переход по ссылке, нажатие на кнопку, скролл страницы итд), модель способна выдать последовательность действий в рамках доступного функционала, которая приведёт к выполнению действия.

Иногда они возвращаются: рекуррентные нейросети наносят ответный удар?

Вышла модель EagleX с RNN-подобной архитектурой, по метрикам сравнимая с Mistral 7B и опережающая LLaMa 7B в большом ряде тестов. В отличие от доминирующих на текущий момент языковых моделей с архитектурой Transformer в EagleX не используется ресурсозатратный механизм “внимания” (attention), что позволяет модели работать с очень длинными текстами. Если EagleX действительно не хуже существующих языковых моделей, то это её выход может стать очередным переломным моментом в NLP.

Автор: Михаил Ким

Редактор: Системный Блокъ

Иллюстратор: Евгения Родикова

Теги:генератор текстов, искусственный интеллект, нейросети, языковые модели

ИИ-компании готовятся к IPO, новые модели от Google и Microsoft

SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире ИИ за последнее время

Михаил Ким

Что делать лингвисту в NLP в эпоху LLM

Вы — лингвист и вам кажется, что ваш труд теряет ценность на фоне успеха больших языковых моделей? Не спешите с выводами. Хотя обработка естественного языка больше не строится на лингвистике и правилах, работа в этой области все еще есть. Лингвисты могут сделать работу ИИ точнее, этичнее и понятнее — от разметки данных до оценки качества генерации

Яна Хлусова, Елизавета Кузьменко

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

Михаил Ким

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну, как они связаны с токенизаторами, генерацией текста и нейросетями и почему понимание базовых концепций помогает перестать воспринимать модели как магию

Марина Севостьянова

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Автономный ИИ инженер

Новые подробности о Sora

Новая модель, которая может заказать вам столик в ресторане

Иногда они возвращаются: рекуррентные нейросети наносят ответный удар?

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Автономный ИИ инженер

Новые подробности о Sora

Новая модель, которая может заказать вам столик в ресторане

Иногда они возвращаются: рекуррентные нейросети наносят ответный удар?

Читать по теме:

ИИ-компании готовятся к IPO, новые модели от Google и Microsoft

Что делать лингвисту в NLP в эпоху LLM

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Какая математика нужна джуну в NLP?

О проекте

Контакты

СОЦСЕТИ

Теги

Темы