Год выпуска: 2021
Описание
Stable Diffusion – диффузионная модель, генерирующая изображения по текстовому описанию. Во время обучения диффузионной модели для генерации изображений на вход подаётся изображение из обучающей выборки, к которому был добавлен шум определённой интенсивности. Задача модели – восстановить из зашумлённого изображения исходное. После обучения генерация изображений происходит путём последовательного удаления шума из данных: на каждом шаге модель убирает определённую долю шума из текущего вход и тем самым генерирует более «чистое» изображение, в качестве входа на первом шаге используется случайный гауссовский шум. Для того чтобы обучить модель генерировать не произвольные, а соответствующие текстовым описаниям, во время обучения модели помимо зашумлённого изображения подаётся на вход также его текстовое описание. Таким образом модель учится использовать информацию из текстового описания для удаления шума из изображения. В случае Stable Diffusion модель обучается удалять шум не из изображений, а из их векторных представлений, полученных с помощью заранее обученного автокодировщика. Автокодировщик состоит из двух частей: кодировщика и декодировщика. Кодировщик строит сжатое векторное представление изображения, а декодировщик из него восстанавливает изображение. Использование векторных представлений изображений вместо самих изображений объясняется тем, что векторные представления намного более компактны и содержат только важную информацию об изображении. За счёт этих преимуществ модель обучается и работает значительно быстрее. Для кодирования текстового описания в Stable Diffusion используется модель CLIP.
Примеры использования:
- Генерация изображений в качестве референсов для иллюстраторов
- Генерация изображений по эскизам, картам глубины
- Редактирование изображений с помощью генерации по текстовому запросу (например, вставка/удаление объектов, дорисовка итд.)
Нововведения
- Генерация не исходных изображений, а их векторных представлений, что существенно повысило скорость и качество модели
- Использование модели CLIP для извлечения полезной информации из текстового описания изображения
- Обученная модель доступна в открытом доступе
Количество параметров: ~1B