Читать нас в Telegram
date_range

Год выпуска: 2021

assignment

Описание

DALL-E – модель, способная генерировать изображения по текстовым запросам. Модель состоит из двух частей: дискретного автокодировщика и трансформера для генерации последовательностей. В начале дискретный автокодировщик обучают представлять произвольные изображения как последовательности токенов (каждому токену соответствует один вектор, количество токенов ограничено) и декодировать из полученных последовательностей исходные изображения. По сути, каждый токен изображения является сжатым представлением какого-то фрагмента, а целое изображение описывается набором представлений его фрагментов. Далее с помощью обученного автокодировщика изображения преобразовывают в последовательности токенов, которые вместе с соответствующими описаниями изображений подаются на вход трансформеру. Трансформер обучается предсказывать следующий токен по предыдущим. Чтобы сгенерировать изображение, модель получает на вход только текстовый запрос и последовательно предсказывает токены изображения. В итоге эта последовательность токенов подается автокодировщику, который декодирует её в обычное изображение. Другими словами, подобно языковым моделям, DALL-E моделирует последовательности, но в отличие от языковых моделей, DALL-E моделирует последовательности вида текст-изображения. Поскольку изображение, в отличие от текста, нельзя просто представить в виде последовательности токенов, необходим дискретный автокодировщик, который сопоставляет изображению набор токенов и наборот.

insert_link

Статья СБъ

Примеры использования:

Генерация изображений в качестве референсов для иллюстраторов

Нововведения

Моделирование пар текст-изображение с помощью трансформера

Количество параметров: 12B