Kandinsky 2.1

Год выпуска: 2023

Описание

Kandinsky – модель, способная генерировать изображения по текстовым описаниям на разных языках. Архитектурно модель похожа на DALL-E 2, однако в отличие от DALL-E 2, Kandinsky генерирует сначала векторное представление изображения, подобно Stable Diffusion, а затем декодирует изображение из полученного векторного представления. Поддержка нескольких языков была достигнута использованием мультиязычной версии модели CLIP.

Где можно попробовать

Примеры использования:

Генерация изображений

Дорисовка фрагментов изображения

Перенос стиль с одного изображения на другое

Генерация изображений по референсам

Нововведения

Поддержка текстовых описаний на нескольких языках

Использование более качественного автокодировщика, чем в Stable Diffusion

Количество параметров: 3.22B

Автор: Михаил Ким

Теги:CV, Diffusion Models, Generative, Multimodal, NLP, Text2Image

О проекте

СОЦСЕТИ

Теги

Темы