Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода

Компаниям, работающим над языковыми моделями, стало сложнее их улучшать, нейросеть для расшифровки белков AlphaFold3 теперь доступна исследователям, новые версии моделей от Qwen для генерации кода — что произошло в мире ИИ за последнее время.

ИИ-лаборатории ищут новые пути развития

Сотрудники компаний, занимающихся разработкой LLM, таких как OpenAI и Anthropic, отмечают, что существующий метод улучшения моделей перестал приносить значительные результаты. До недавнего времени качество языковых моделей повышалось за счёт увеличения вычислительных ресурсов, направленных на рост их размеров (размер GPT вырос в 1000 раз за пять лет) и объёмов данных для обучения. При этом улучшение моделей предсказуемо зависит от объёма использованных ресурсов. Однако сейчас компании столкнулись с тем, что дополнительные затраты на ресурсы больше не приводят к существенным улучшениям.

Недавно OpenAI представила модель o1 с принципиально другой схемой работы: масштабирование вычислений происходит не во время обучения, а при её использовании. Модель o1 использует разный объём вычислений в зависимости от сложности пользовательского запроса.

Другие компании также ищут альтернативные выходы из ситуации. Об этом в том числе заявил бывший топ-исследователь OpenAI Илья Суцкевер, основавший свою компанию Safe Super Intelligence Inc.

AlphaFold3 стала доступна для исследователей

Лаборатория Google DeepMind опубликовала модель AlphaFold3 в открытый доступ. Ранее доступ к модели осуществлялся через API с ограничением в 20 запросов в день. Теперь исследователи могут запускать и использовать её самостоятельно. Лицензия модели запрещает коммерческое использование.

AlphaFold3 — третья версия системы для предсказания трёхмерной структуры белков. За разработку AlphaFold исследователи Google DeepMind получили в этом году нобелевскую премию по химии.

Qwen2.5-Coder — новая лучшая открытая модель для кода

Компания Alibaba Group (владелица AliExpress, Taobao и ряда других площадок) выпустила серию моделей, генерирующих программный код, Qwen2.5-Coder.

Модель доступна в четырёх размерах — 0.5 / 3 / 14 / 32 млрд параметров. Самая большая версия стала лидером среди открытых моделей по качеству написания кода и сравнялась с GPT-4o. Модель поддерживает 40 языков программирования. Все версии, кроме модели с 3 млрд параметров, доступны для использования в исследовательских и коммерческих целях.

Автор: Михаил Ким

Редактор: Системный Блокъ

Иллюстратор: Марина Панкова

Теги:alphafold, Anthropic, deepmind, OpenAI, qwen, safe super intelligence

Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода

ИИ-лаборатории ищут новые пути развития

AlphaFold3 стала доступна для исследователей

Qwen2.5-Coder — новая лучшая открытая модель для кода

О проекте

Контакты

СОЦСЕТИ

Теги

Темы

Языковые модели упёрлись в потолок, AlphaFold3 в открытом доступе, новые LLM для генерации кода

ИИ-лаборатории ищут новые пути развития

AlphaFold3 стала доступна для исследователей

Qwen2.5-Coder — новая лучшая открытая модель для кода

Читать по теме:

AlphaProteo, стартап Ильи Суцкевера привлёк огромные инвестиции и самый мощный кластер для компаний Илона Маска

GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели

О проекте

Контакты

СОЦСЕТИ

Теги

Темы