ИИ-лаборатории ищут новые пути развития
Сотрудники компаний, занимающихся разработкой LLM, таких как OpenAI и Anthropic, отмечают, что существующий метод улучшения моделей перестал приносить значительные результаты. До недавнего времени качество языковых моделей повышалось за счёт увеличения вычислительных ресурсов, направленных на рост их размеров (размер GPT вырос в 1000 раз за пять лет) и объёмов данных для обучения. При этом улучшение моделей предсказуемо зависит от объёма использованных ресурсов. Однако сейчас компании столкнулись с тем, что дополнительные затраты на ресурсы больше не приводят к существенным улучшениям.
Недавно OpenAI представила модель o1 с принципиально другой схемой работы: масштабирование вычислений происходит не во время обучения, а при её использовании. Модель o1 использует разный объём вычислений в зависимости от сложности пользовательского запроса.
Другие компании также ищут альтернативные выходы из ситуации. Об этом в том числе заявил бывший топ-исследователь OpenAI Илья Суцкевер, основавший свою компанию Safe Super Intelligence Inc.
AlphaFold3 стала доступна для исследователей
Лаборатория Google DeepMind опубликовала модель AlphaFold3 в открытый доступ. Ранее доступ к модели осуществлялся через API с ограничением в 20 запросов в день. Теперь исследователи могут запускать и использовать её самостоятельно. Лицензия модели запрещает коммерческое использование.
AlphaFold3 — третья версия системы для предсказания трёхмерной структуры белков. За разработку AlphaFold исследователи Google DeepMind получили в этом году нобелевскую премию по химии.
Qwen2.5-Coder — новая лучшая открытая модель для кода
Компания Alibaba Group (владелица AliExpress, Taobao и ряда других площадок) выпустила серию моделей, генерирующих программный код, Qwen2.5-Coder.
Модель доступна в четырёх размерах — 0.5 / 3 / 14 / 32 млрд параметров. Самая большая версия стала лидером среди открытых моделей по качеству написания кода и сравнялась с GPT-4o. Модель поддерживает 40 языков программирования. Все версии, кроме модели с 3 млрд параметров, доступны для использования в исследовательских и коммерческих целях.