DALL-E

Одна из первых моделей, генерирующих качественные изображения по текстовому описанию

22.06.2021

Год выпуска: 2021

Описание

DALL-E – модель, способная генерировать изображения по текстовым запросам. Модель состоит из двух частей: дискретного автокодировщика и трансформера для генерации последовательностей. В начале дискретный автокодировщик обучают представлять произвольные изображения как последовательности токенов (каждому токену соответствует один вектор, количество токенов ограничено) и декодировать из полученных последовательностей исходные изображения. По сути, каждый токен изображения является сжатым представлением какого-то фрагмента, а целое изображение описывается набором представлений его фрагментов. Далее с помощью обученного автокодировщика изображения преобразовывают в последовательности токенов, которые вместе с соответствующими описаниями изображений подаются на вход трансформеру. Трансформер обучается предсказывать следующий токен по предыдущим. Чтобы сгенерировать изображение, модель получает на вход только текстовый запрос и последовательно предсказывает токены изображения. В итоге эта последовательность токенов подается автокодировщику, который декодирует её в обычное изображение. Другими словами, подобно языковым моделям, DALL-E моделирует последовательности, но в отличие от языковых моделей, DALL-E моделирует последовательности вида текст-изображения. Поскольку изображение, в отличие от текста, нельзя просто представить в виде последовательности токенов, необходим дискретный автокодировщик, который сопоставляет изображению набор токенов и наборот.

Оригинальная статья

Статья СБъ

Где можно попробовать

Примеры использования:

Генерация изображений в качестве референсов для иллюстраторов

Нововведения

Моделирование пар текст-изображение с помощью трансформера

Количество параметров: 12B

Автор: Михаил Ким

Теги:CV, Generative, Multimodal, NLP, OpenAI, Text2Image, Transformer

Next Stable Diffusion »

Previous « CLIP

Tags: CVGenerativeMultimodalNLPOpenAIText2ImageTransformer

22.06.2021

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

DALL-E

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз