Читать нас в Telegram
dall e
Иллюстратор: Грета Исагулова

Модель получает текст и изображение как единый поток данных, который содержит до 1280 токенов — 256 для текста и 1024 для изображения. DALL-E создает правдоподобные образы на основе предложений. Далее продемонстрированы самые удачные образцы сгенерированных изображений. Эти примеры отобрала нейросеть-классификатор CLIP.

Постановка задачи происходит на естественном языке: нарисовать зеленые часы в виде пятиугольника или куб из дикобраза. Как видно из иллюстраций, не всегда удается выполнить задачу точно. В некоторых случаях модель интерпретирует текст неправильно, например, «рисует» белый куб с изображением дикобраза.

Текстовое описание: пятиугольные зеленые часы; зеленые часы в форме пятиугольника
Текстовое описание: куб, сделанный из дикобраза; куб с текстурой дикобраза

Модель способна выполнять непростые задачи. Трудностью было рисование нескольких объектов — когда нужно правильно идентифицировать прилагательное, которое относится к каждому объекту. Разработчики получили изображения кубиков со сложными вариантами расположения и картинки с пингвином в предметах одежды разного цвета.

Текстовое описание: 3 куба. Красный куб наверху, над зеленым кубом, зеленый куб посередине, над синим кубом. Синий куб внизу
Текстовое описание: эмодзи с изображением пингвина, одетого в синюю шапку, красные перчатки, зеленую рубашку и желтые брюки

Другими способностями DALL-E стали визуализация фона, применение оптических иллюзий и создание объемных изображений. Таким образом, удалось «нарисовать» капибару, сидящую в поле.

Текстовое описание: очень близкое изображение капибары, сидящей в поле

Из изображений бюста Гомера, которые нейросеть сгенерировала под разным углом, даже можно получить анимацию.

Текстовое описание: фотография бюста Гомера

Нейросеть оказалась способна комбинировать образы для рисования несуществующих объектов и антропоморфных животных и предметов. Так получилась улитка в форме арфы, редиска в пачке с собакой, и «влюбленный» пластиковый стакан. Использование словосочетания «профессиональное высокое качество» часто улучшает качество изображений и увеличивает степень соответствия теме.

Текстовое описание: улитка, сделанная из арфы; улитка с текстурой арфы
Текстовое описание: редька в балетной пачке, гуляющая с собакой
Текстовое описание: эмодзи с влюбленным пластиковым стаканчиком профессионального высокого качества

Создатели полагают, что модели найдется применение в моде и дизайне. Исследователи сгенерировали изображения одежды на мужских и женских манекенах. Модель подсказывает многовариантные задействования указанных цветов в одежде, но иногда путает оттенки.

Текстовое описание: женский манекен, одетый в черную кожаную куртку и золотую плиссированную юбку

Что касается дизайна интерьеров, при помощи нейросети можно даже добавлять картины и детали декора. Нейросети удавались картины как реальных, так и несуществующих объектов, литературных персонажей. Исследователи даже создали иллюстрации с детальным изображением аквариумов.

Текстовое описание: гостиная с двумя белыми креслами и картиной, изображающей Колизей. Картина расположена над современным белым камином