Модели

DALL-E

Одна из первых моделей, генерирующих качественные изображения по текстовому описанию

date_range

Год выпуска: 2021

assignment

Описание

DALL-E – модель, способная генерировать изображения по текстовым запросам. Модель состоит из двух частей: дискретного автокодировщика и трансформера для генерации последовательностей. В начале дискретный автокодировщик обучают представлять произвольные изображения как последовательности токенов (каждому токену соответствует один вектор, количество токенов ограничено) и декодировать из полученных последовательностей исходные изображения. По сути, каждый токен изображения является сжатым представлением какого-то фрагмента, а целое изображение описывается набором представлений его фрагментов. Далее с помощью обученного автокодировщика изображения преобразовывают в последовательности токенов, которые вместе с соответствующими описаниями изображений подаются на вход трансформеру. Трансформер обучается предсказывать следующий токен по предыдущим. Чтобы сгенерировать изображение, модель получает на вход только текстовый запрос и последовательно предсказывает токены изображения. В итоге эта последовательность токенов подается автокодировщику, который декодирует её в обычное изображение. Другими словами, подобно языковым моделям, DALL-E моделирует последовательности, но в отличие от языковых моделей, DALL-E моделирует последовательности вида текст-изображения. Поскольку изображение, в отличие от текста, нельзя просто представить в виде последовательности токенов, необходим дискретный автокодировщик, который сопоставляет изображению набор токенов и наборот.

insert_link

Статья СБъ

Примеры использования:

Генерация изображений в качестве референсов для иллюстраторов

Нововведения

Моделирование пар текст-изображение с помощью трансформера

Количество параметров: 12B

Share

Recent Posts

«Это моя Булька…»: как ИИ-мемы становятся новым фольклором

Бегемот Булька-Барабулька и Тралалело Тралала — что общего у этих образов? Они родились в пространстве нейросетей, а затем разошлись по…

02.06.2026

Что такое корпус текстов?

Если собрать много текстов на одном языке, это уже корпус? Если да, то много — это сколько? Рассказываем, что называется…

29.05.2026

Что делать лингвисту в NLP в эпоху LLM

Вы — лингвист и вам кажется, что ваш труд теряет ценность на фоне успеха больших языковых моделей? Не спешите с…

28.05.2026