Модели

DALL-E

Одна из первых моделей, генерирующих качественные изображения по текстовому описанию

date_range

Год выпуска: 2021

assignment

Описание

DALL-E – модель, способная генерировать изображения по текстовым запросам. Модель состоит из двух частей: дискретного автокодировщика и трансформера для генерации последовательностей. В начале дискретный автокодировщик обучают представлять произвольные изображения как последовательности токенов (каждому токену соответствует один вектор, количество токенов ограничено) и декодировать из полученных последовательностей исходные изображения. По сути, каждый токен изображения является сжатым представлением какого-то фрагмента, а целое изображение описывается набором представлений его фрагментов. Далее с помощью обученного автокодировщика изображения преобразовывают в последовательности токенов, которые вместе с соответствующими описаниями изображений подаются на вход трансформеру. Трансформер обучается предсказывать следующий токен по предыдущим. Чтобы сгенерировать изображение, модель получает на вход только текстовый запрос и последовательно предсказывает токены изображения. В итоге эта последовательность токенов подается автокодировщику, который декодирует её в обычное изображение. Другими словами, подобно языковым моделям, DALL-E моделирует последовательности, но в отличие от языковых моделей, DALL-E моделирует последовательности вида текст-изображения. Поскольку изображение, в отличие от текста, нельзя просто представить в виде последовательности токенов, необходим дискретный автокодировщик, который сопоставляет изображению набор токенов и наборот.

insert_link

Статья СБъ

Примеры использования:

Генерация изображений в качестве референсов для иллюстраторов

Нововведения

Моделирование пар текст-изображение с помощью трансформера

Количество параметров: 12B

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026