Модели

GPT

Одна из первых больших генеративных языковых моделей с архитектурой Transformer

date_range

Год выпуска: 2018

assignment

Описание

Языковая модель (Generative Pre-training Transformer), используящая decoder only transformer архитектуру. В отличие от BERT GPT была обучена на классической задаче моделирования языка – задаче предсказания следующего токена по предыдущим. За счёт обучения под такую задачу на большом корпусе текстов GPT можно дообучить под конкретную задачу на относительно небольшой выборке. 

insert_link

Статья СБъ

Примеры использования: основа для решения большинства задач автоматической обработки языка

Нововведения: из-за обучения генеративной задачи (Causal Language Modeling) модель можно дообучить под конкретные задачи без существенно изменения её архитектуры: например, в случае задачи Natural Language Inference можно объединить текст посылки (premise) и текст возможно следствия этой посылки (hypothesis), подать на вход предобученной GPT и на её выходе обучить простой линейный классификатор.

Количество параметров: 117M

Область: NLP

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026