Автономный ИИ инженер
Cтартап Cognition продемонстрировал нейросеть Devin, которая способна выполнять роль инженера машинного обучения. По утверждениям компании, нейросеть может выполнять комплексные задачи, например, разрабатывать веб-сайты, находить и исправлять ошибки в существующей кодовой базе, обучать модели машинного обучения.
Devin протестировали в бенчмарке SWE-bench. Метрика этого теста – процент успешно исправленных моделью ошибок в коде больших публичных проектов. Devin превосходит все предыдущие модели (в том числе GPT-4, Claude и LLaMa), однако процент успешных исправлений всё ещё низок – 13.86%. На данный момент модель доступна по заявкам.
Новые подробности о Sora
Мира Мурати, техническая директриса OpenAI, дала интервью Wall Street Journal, в котором раскрыла новые детали о модели для генерации видео Sora. Вот некоторые из них:
- OpenAI планирует добавить генерацию звука к видео в будущем.
- Sora была обучена на публично доступных, а также лицензионных видео. На вопрос, были ли использованы видео из YouTube, Instagram и Facebook, Мурати не дала прямого ответа.
- В планах компании сократить количество вычислительных ресурсов, необходимых для работы Sora. Цель приблизительно на год – по ресурсозатратности Sora должна быть сопоставима с нейросетью для генерации изображений DALL-E.
Если вам интересно, как устроена модель Sora, то вы можете прочитать наш недавний материал.
Новая модель, которая может заказать вам столик в ресторане
Компания Cohere выпустила в публичный доступ языковую модель Command-R c 35-ю миллиардами параметров. Модель поддерживает 10 языков, в том числе и русский. Command-R хорошо подходит для RAG (Retrieval Augmented Generation) – это техника, при которой помимо вопроса пользователя модели дают на вход набор пар похожих вопросов и ответов на них, тем самым ответ модели получаются более фактологически верным. Например, в случае разработки чат-бота для службы поддержки этот подход особо актуален, поскольку обычно существует большая база часто задаваемых вопросов с правильными ответами.
Также при разработке модели сделали большой упор на способность модели использовать внешние инструменты. Например, в качестве инструмента может выступать браузер. Описав задачу (пример задачи – бронь столика в ресторане через его сайт) и функционал инструмента (поиск, переход по ссылке, нажатие на кнопку, скролл страницы итд), модель способна выдать последовательность действий в рамках доступного функционала, которая приведёт к выполнению действия.
Иногда они возвращаются: рекуррентные нейросети наносят ответный удар?
Вышла модель EagleX с RNN-подобной архитектурой, по метрикам сравнимая с Mistral 7B и опережающая LLaMa 7B в большом ряде тестов. В отличие от доминирующих на текущий момент языковых моделей с архитектурой Transformer в EagleX не используется ресурсозатратный механизм “внимания” (attention), что позволяет модели работать с очень длинными текстами. Если EagleX действительно не хуже существующих языковых моделей, то это её выход может стать очередным переломным моментом в NLP.