DALL-E — нейросеть-трансформер с 12 миллиардами параметров, которую обучили генерировать изображения по произвольному текстовому описанию. Например, пишете ей «кресло в виде авокадо» — и получаете изображение, которое почти неотличимо от фотографии из салона дизайнерской мебели. Рассказываем, что еще умеет DALL-E
Иллюстратор: Грета Исагулова
Модель получает текст и изображение как единый поток данных, который содержит до 1280 токенов — 256 для текста и 1024 для изображения. DALL-E создает правдоподобные образы на основе предложений. Далее продемонстрированы самые удачные образцы сгенерированных изображений. Эти примеры отобрала нейросеть-классификатор CLIP.
Постановка задачи происходит на естественном языке: нарисовать зеленые часы в виде пятиугольника или куб из дикобраза. Как видно из иллюстраций, не всегда удается выполнить задачу точно. В некоторых случаях модель интерпретирует текст неправильно, например, «рисует» белый куб с изображением дикобраза.
Модель способна выполнять непростые задачи. Трудностью было рисование нескольких объектов — когда нужно правильно идентифицировать прилагательное, которое относится к каждому объекту. Разработчики получили изображения кубиков со сложными вариантами расположения и картинки с пингвином в предметах одежды разного цвета.
Другими способностями DALL-E стали визуализация фона, применение оптических иллюзий и создание объемных изображений. Таким образом, удалось «нарисовать» капибару, сидящую в поле.
Из изображений бюста Гомера, которые нейросеть сгенерировала под разным углом, даже можно получить анимацию.
Нейросеть оказалась способна комбинировать образы для рисования несуществующих объектов и антропоморфных животных и предметов. Так получилась улитка в форме арфы, редиска в пачке с собакой, и «влюбленный» пластиковый стакан. Использование словосочетания «профессиональное высокое качество» часто улучшает качество изображений и увеличивает степень соответствия теме.
Создатели полагают, что модели найдется применение в моде и дизайне. Исследователи сгенерировали изображения одежды на мужских и женских манекенах. Модель подсказывает многовариантные задействования указанных цветов в одежде, но иногда путает оттенки.
Что касается дизайна интерьеров, при помощи нейросети можно даже добавлять картины и детали декора. Нейросети удавались картины как реальных, так и несуществующих объектов, литературных персонажей. Исследователи даже создали иллюстрации с детальным изображением аквариумов.
«Лучше пешком», — говорим мы себе летом и выбираем прогулки непривычными маршрутами. А если путь не знаком — поможет приложение-навигатор.…
SpaceX, Anthropic и OpenAI готовятся стать публичными компаниями, Google и Microsoft выпустили новые модели — рассказываем, что произошло в мире…
Японская культура повседневности отличается вниманием к визуальной эстетике, типографике и деталям коммуникации. Поэтому даже самые обычные документы — билеты, рекламные…