Редька-балерина и кресло-авокадо: нейросеть научилась рисовать изображения на заказ

DALL-E — нейросеть-трансформер с 12 миллиардами параметров, которую обучили генерировать изображения по произвольному текстовому описанию. Например, пишете ей «кресло в виде авокадо» — и получаете изображение, которое почти неотличимо от фотографии из салона дизайнерской мебели. Рассказываем, что еще умеет DALL-E

01.03.2021

Иллюстратор: Грета Исагулова

Модель получает текст и изображение как единый поток данных, который содержит до 1280 токенов — 256 для текста и 1024 для изображения. DALL-E создает правдоподобные образы на основе предложений. Далее продемонстрированы самые удачные образцы сгенерированных изображений. Эти примеры отобрала нейросеть-классификатор CLIP.

Постановка задачи происходит на естественном языке: нарисовать зеленые часы в виде пятиугольника или куб из дикобраза. Как видно из иллюстраций, не всегда удается выполнить задачу точно. В некоторых случаях модель интерпретирует текст неправильно, например, «рисует» белый куб с изображением дикобраза.

Текстовое описание: пятиугольные зеленые часы; зеленые часы в форме пятиугольника

Текстовое описание: куб, сделанный из дикобраза; куб с текстурой дикобраза

Модель способна выполнять непростые задачи. Трудностью было рисование нескольких объектов — когда нужно правильно идентифицировать прилагательное, которое относится к каждому объекту. Разработчики получили изображения кубиков со сложными вариантами расположения и картинки с пингвином в предметах одежды разного цвета.

Текстовое описание: 3 куба. Красный куб наверху, над зеленым кубом, зеленый куб посередине, над синим кубом. Синий куб внизу

Текстовое описание: эмодзи с изображением пингвина, одетого в синюю шапку, красные перчатки, зеленую рубашку и желтые брюки

Другими способностями DALL-E стали визуализация фона, применение оптических иллюзий и создание объемных изображений. Таким образом, удалось «нарисовать» капибару, сидящую в поле.

Текстовое описание: очень близкое изображение капибары, сидящей в поле

Из изображений бюста Гомера, которые нейросеть сгенерировала под разным углом, даже можно получить анимацию.

Текстовое описание: фотография бюста Гомера

Нейросеть оказалась способна комбинировать образы для рисования несуществующих объектов и антропоморфных животных и предметов. Так получилась улитка в форме арфы, редиска в пачке с собакой, и «влюбленный» пластиковый стакан. Использование словосочетания «профессиональное высокое качество» часто улучшает качество изображений и увеличивает степень соответствия теме.

Текстовое описание: улитка, сделанная из арфы; улитка с текстурой арфы

Текстовое описание: редька в балетной пачке, гуляющая с собакой

Текстовое описание: эмодзи с влюбленным пластиковым стаканчиком профессионального высокого качества

Создатели полагают, что модели найдется применение в моде и дизайне. Исследователи сгенерировали изображения одежды на мужских и женских манекенах. Модель подсказывает многовариантные задействования указанных цветов в одежде, но иногда путает оттенки.

Текстовое описание: женский манекен, одетый в черную кожаную куртку и золотую плиссированную юбку

Что касается дизайна интерьеров, при помощи нейросети можно даже добавлять картины и детали декора. Нейросети удавались картины как реальных, так и несуществующих объектов, литературных персонажей. Исследователи даже создали иллюстрации с детальным изображением аквариумов.

Текстовое описание: гостиная с двумя белыми креслами и картиной, изображающей Колизей. Картина расположена над современным белым камином

Автор: Мария Адзхед

Редактор: Вера Шимко

Иллюстратор: Грета Исагулова

Теги:нейросети

Next Что такое Legal Tech и можно ли автоматизировать юриста »

Previous « «Поднимите мне руку!»: как технологии оживляют покойных

Tags: нейросети

01.03.2021

В России принят первый закон об ИИ

Документ вводит юридическое определение искусственного интеллекта, а также суверенной и национальной языковых моделей. Им придется проходить проверку на соответствие традиционным…

27.07.2026

Филология

Муза с перфокартами: как компьютеры учились писать стихи за полвека до нейросетей

Генеративная поэзия появилась задолго до ChatGPT. Компьютеры генерируют стихи уже больше 60 лет, а сама мечта заставить машину рифмовать —…

24.07.2026

MLOps для работы с текстом: принципы и минимальный набор инструментов

Как специалисты по машинному обучению наводят порядок при работе с большими корпусами? Что нужно сделать, чтобы эксперимент был воспроизводимым, качество…

20.07.2026

Редька-балерина и кресло-авокадо: нейросеть научилась рисовать изображения на заказ

Related Post

Recent Posts

В России принят первый закон об ИИ

Муза с перфокартами: как компьютеры учились писать стихи за полвека до нейросетей

MLOps для работы с текстом: принципы и минимальный набор инструментов