InstructGPT

Год выпуска: 2022

Описание

Модификация GPT-3, обученная генерировать ответы, которые соответствуют запросам пользователя. Модель также генерирует меньше токсичного и неправдивого контента. Улучшения были достигнуты с помощью метода RLHF (Reinforcement from Learning Human Feedback), который позволяет учитывать человеческую оценку ответов модели при её обучении

Оригинальная статья

Примеры использования:

Основа для решения большинства задач автоматической обработки языка

Чат-бот

Нововведения

Ответы модели более согласованы с запросом пользователя. Модель выдаёт меньше токсичного и неправдивого контента

Количество параметров: 175B

Автор: Системный Блокъ

Теги:GPT, LM, NLP, OpenAI, RLHF, Transformer

О проекте

СОЦСЕТИ

Теги

Темы