Новости

Редька-балерина и кресло-авокадо: нейросеть научилась рисовать изображения на заказ

DALL-E — нейросеть-трансформер с 12 миллиардами параметров, которую обучили генерировать изображения по произвольному текстовому описанию. Например, пишете ей «кресло в виде авокадо» — и получаете изображение, которое почти неотличимо от фотографии из салона дизайнерской мебели. Рассказываем, что еще умеет DALL-E

Модель получает текст и изображение как единый поток данных, который содержит до 1280 токенов — 256 для текста и 1024 для изображения. DALL-E создает правдоподобные образы на основе предложений. Далее продемонстрированы самые удачные образцы сгенерированных изображений. Эти примеры отобрала нейросеть-классификатор CLIP.

Постановка задачи происходит на естественном языке: нарисовать зеленые часы в виде пятиугольника или куб из дикобраза. Как видно из иллюстраций, не всегда удается выполнить задачу точно. В некоторых случаях модель интерпретирует текст неправильно, например, «рисует» белый куб с изображением дикобраза.

Текстовое описание: пятиугольные зеленые часы; зеленые часы в форме пятиугольника
Текстовое описание: куб, сделанный из дикобраза; куб с текстурой дикобраза

Модель способна выполнять непростые задачи. Трудностью было рисование нескольких объектов — когда нужно правильно идентифицировать прилагательное, которое относится к каждому объекту. Разработчики получили изображения кубиков со сложными вариантами расположения и картинки с пингвином в предметах одежды разного цвета.

Текстовое описание: 3 куба. Красный куб наверху, над зеленым кубом, зеленый куб посередине, над синим кубом. Синий куб внизу
Текстовое описание: эмодзи с изображением пингвина, одетого в синюю шапку, красные перчатки, зеленую рубашку и желтые брюки

Другими способностями DALL-E стали визуализация фона, применение оптических иллюзий и создание объемных изображений. Таким образом, удалось «нарисовать» капибару, сидящую в поле.

Текстовое описание: очень близкое изображение капибары, сидящей в поле

Из изображений бюста Гомера, которые нейросеть сгенерировала под разным углом, даже можно получить анимацию.

Текстовое описание: фотография бюста Гомера

Нейросеть оказалась способна комбинировать образы для рисования несуществующих объектов и антропоморфных животных и предметов. Так получилась улитка в форме арфы, редиска в пачке с собакой, и «влюбленный» пластиковый стакан. Использование словосочетания «профессиональное высокое качество» часто улучшает качество изображений и увеличивает степень соответствия теме.

Текстовое описание: улитка, сделанная из арфы; улитка с текстурой арфы
Текстовое описание: редька в балетной пачке, гуляющая с собакой
Текстовое описание: эмодзи с влюбленным пластиковым стаканчиком профессионального высокого качества

Создатели полагают, что модели найдется применение в моде и дизайне. Исследователи сгенерировали изображения одежды на мужских и женских манекенах. Модель подсказывает многовариантные задействования указанных цветов в одежде, но иногда путает оттенки.

Текстовое описание: женский манекен, одетый в черную кожаную куртку и золотую плиссированную юбку

Что касается дизайна интерьеров, при помощи нейросети можно даже добавлять картины и детали декора. Нейросети удавались картины как реальных, так и несуществующих объектов, литературных персонажей. Исследователи даже создали иллюстрации с детальным изображением аквариумов.

Текстовое описание: гостиная с двумя белыми креслами и картиной, изображающей Колизей. Картина расположена над современным белым камином
Share

Recent Posts

Обратная сторона навигаторов: куда нас ведут электронные карты и что с этим бывает не так

«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…

10.06.2026

ИИ-компании готовятся к IPO, новые модели от Google и Microsoft

SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…

09.06.2026

Как Япония оцифровывает повседневность и почему это важно

Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…

05.06.2026