Читать нас в Telegram

ИИ-лаборатории ищут новые пути развития

Сотрудники компаний, занимающихся разработкой LLM, таких как OpenAI и Anthropic, отмечают, что существующий метод улучшения моделей перестал приносить значительные результаты. До недавнего времени качество языковых моделей повышалось за счёт увеличения вычислительных ресурсов, направленных на рост их размеров (размер GPT вырос в 1000 раз за пять лет) и объёмов данных для обучения. При этом улучшение моделей предсказуемо зависит от объёма использованных ресурсов. Однако сейчас компании столкнулись с тем, что дополнительные затраты на ресурсы больше не приводят к существенным улучшениям.

Недавно OpenAI представила модель o1 с принципиально другой схемой работы: масштабирование вычислений происходит не во время обучения, а при её использовании. Модель o1 использует разный объём вычислений в зависимости от сложности пользовательского запроса.

Другие компании также ищут альтернативные выходы из ситуации. Об этом в том числе заявил бывший топ-исследователь OpenAI Илья Суцкевер, основавший свою компанию Safe Super Intelligence Inc.

AlphaFold3 стала доступна для исследователей

Лаборатория Google DeepMind опубликовала модель AlphaFold3 в открытый доступ. Ранее доступ к модели осуществлялся через API с ограничением в 20 запросов в день. Теперь исследователи могут запускать и использовать её самостоятельно. Лицензия модели запрещает коммерческое использование.

AlphaFold3 — третья версия системы для предсказания трёхмерной структуры белков. За разработку AlphaFold исследователи Google DeepMind получили в этом году нобелевскую премию по химии.

Qwen2.5-Coder — новая лучшая открытая модель для кода

Компания Alibaba Group (владелица AliExpress, Taobao и ряда других площадок) выпустила серию моделей, генерирующих программный код, Qwen2.5-Coder.

Модель доступна в четырёх размерах — 0.5 / 3 / 14 / 32 млрд параметров. Самая большая версия стала лидером среди открытых моделей по качеству написания кода и сравнялась с GPT-4o. Модель поддерживает 40 языков программирования. Все версии, кроме модели с 3 млрд параметров, доступны для использования в исследовательских и коммерческих целях.