Две новых языковых модели и обучающая выборка в 15 триллионов токенов: дайджест новостей из мира ИИ

Компания Snowflake выпустила самую большую языковую модель, открытую для коммерческого использования. Разработчикам доступная новая обучающая выборка из 15 триллионов токенов. Microsoft представила новое поколение компактной модели Phi. Рассказываем, что произошло в мире ИИ на прошлой неделе.

Новая самая большая публичная LLM

Компания Snowflake выпустила языковую модель Arctic с 480 миллиардами параметров. Модель использует архитектуру Mixture of Experts. Иными словами, в процессе её работы задействована только часть всех параметров (какая именно — модель выбирает в зависимости от входных данных). В случае Artic используется всего лишь 3,5% параметров. По качеству она сопоставима с LLama 3 70B. На данный момент Arctic является самой большой моделью, которую можно использовать в коммерческих целях без каких-либо ограничений.

Доступна обучающая выборка с 15 триллионами токенов

Опубликована новая выборка текстов для обучения языковых моделей — FineWeb. Она содержит отфильтрованные англоязычные тексты разных веб-сайтов и покрывает период с лета 2013 года до начала весны 2024 года. Мультиязычную версию обещают выложить в ближайшее время. Всего в выборке 15 триллионов токенов (токен — часть слова или слово). Для проверки качества данных на части выборки было обучено несколько языковых моделей. Качество моделей получилось выше, чем у моделей, обученных на других известных наборах данных (C4, Pile, Dolma и другие).

Phi-3 — маленькая, но умная языковая модель

Компания Microsoft выпустила третье поколение своих компактных языковых моделей Phi. Модель Phi-3 выделяется относительно небольшим размером: 3,8 миллиарда параметров (для сравнения самая большая на текущий момент публичная модель в 126 раз больше) и высокими показателями в основных тестах. По качеству она сопоставима с недавно вышедшей LLama 3 с восемью миллиардами параметров. По заявлениям Microsoft, этого удалось достичь с помощью обучения модели на данных высокого качества: часть данных — сильно отфильтрованный набор текстов из интернета, другая часть — данные, сгенерированные с помощью GPT-4. Однако в сообществе исследователей и разработчиков присутствует скептицизм по поводу возможностей Phi-3: критики подозревают, что в обучающих данных присутствовали тексты, на которых её впоследствии тестировали. Такие же дискуссии вызвали и её предшественники Phi-1 и Phi-2.

Автор: Михаил Ким

Редактор: Системный Блокъ

Теги:LLM, нейронные сети, языковые модели

Две новых языковых модели и обучающая выборка в 15 триллионов токенов: дайджест новостей из мира ИИ

Новая самая большая публичная LLM

Доступна обучающая выборка с 15 триллионами токенов

Phi-3 — маленькая, но умная языковая модель

О проекте

СОЦСЕТИ

Теги

Темы

Две новых языковых модели и обучающая выборка в 15 триллионов токенов: дайджест новостей из мира ИИ

Новая самая большая публичная LLM

Доступна обучающая выборка с 15 триллионами токенов

Phi-3 — маленькая, но умная языковая модель

Читать по теме:

Автономный ИИ-инженер и новое о Sora: дайджест новостей в мире искусственного интеллекта

Новая открытая языковая модель, обновление GPT-4 и скорый выход LLaMa 3: дайджест новостей из мира ИИ

О проекте

СОЦСЕТИ

Теги

Темы