Разное

Две новых языковых модели и обучающая выборка в 15 триллионов токенов: дайджест новостей из мира ИИ

Компания Snowflake выпустила самую большую языковую модель, открытую для коммерческого использования. Разработчикам доступная новая обучающая выборка из 15 триллионов токенов. Microsoft представила новое поколение компактной модели Phi. Рассказываем, что произошло в мире ИИ на прошлой неделе.

Новая самая большая публичная LLM

Компания Snowflake выпустила языковую модель Arctic с 480 миллиардами параметров. Модель использует архитектуру Mixture of Experts. Иными словами, в процессе её работы задействована только часть всех параметров (какая именно — модель выбирает в зависимости от входных данных). В случае Artic используется всего лишь 3,5% параметров. По качеству она сопоставима с LLama 3 70B. На данный момент Arctic является самой большой моделью, которую можно использовать в коммерческих целях без каких-либо ограничений.

Доступна обучающая выборка с 15 триллионами токенов

Опубликована новая выборка текстов для обучения языковых моделей — FineWeb. Она содержит отфильтрованные англоязычные тексты разных веб-сайтов и покрывает период с лета 2013 года до начала весны 2024 года. Мультиязычную версию обещают выложить в ближайшее время. Всего в выборке 15 триллионов токенов (токен — часть слова или слово). Для проверки качества данных на части выборки было обучено несколько языковых моделей. Качество моделей получилось выше, чем у моделей, обученных на других известных наборах данных (C4, Pile, Dolma и другие).

Phi-3 — маленькая, но умная языковая модель

Компания Microsoft выпустила третье поколение своих компактных языковых моделей Phi. Модель Phi-3 выделяется относительно небольшим размером: 3,8 миллиарда параметров (для сравнения самая большая на текущий момент публичная модель в 126 раз больше) и высокими показателями в основных тестах. По качеству она сопоставима с недавно вышедшей LLama 3 с восемью миллиардами параметров. По заявлениям Microsoft, этого удалось достичь с помощью обучения модели на данных высокого качества: часть данных — сильно отфильтрованный набор текстов из интернета, другая часть — данные, сгенерированные с помощью GPT-4. Однако в сообществе исследователей и разработчиков присутствует скептицизм по поводу возможностей Phi-3: критики подозревают, что в обучающих данных присутствовали тексты, на которых её впоследствии тестировали. Такие же дискуссии вызвали и её предшественники Phi-1 и Phi-2.

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026