Kandinsky 2.1

Мультиязычная модель для генерации изображений по текстовому описанию

22.03.2023

Год выпуска: 2023

Описание

Kandinsky – модель, способная генерировать изображения по текстовым описаниям на разных языках. Архитектурно модель похожа на DALL-E 2, однако в отличие от DALL-E 2, Kandinsky генерирует сначала векторное представление изображения, подобно Stable Diffusion, а затем декодирует изображение из полученного векторного представления. Поддержка нескольких языков была достигнута использованием мультиязычной версии модели CLIP.

Где можно попробовать

Примеры использования:

Генерация изображений

Дорисовка фрагментов изображения

Перенос стиль с одного изображения на другое

Генерация изображений по референсам

Нововведения

Поддержка текстовых описаний на нескольких языках

Использование более качественного автокодировщика, чем в Stable Diffusion

Количество параметров: 3.22B

Автор: Михаил Ким

Теги:CV, Diffusion Models, Generative, Multimodal, NLP, Text2Image

Next Что умеет GPT-4 — новая и самая совершенная языковая модель от OpenAI »

Previous « Что такое transfer learning в обучении нейросетей

Tags: CVDiffusion ModelsGenerativeMultimodalNLPText2Image

22.03.2023

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

Kandinsky 2.1

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз