Одна из самых популярных открытых моделей для генерации изображений по текстовому описанию
Год выпуска: 2021
Описание
Stable Diffusion – диффузионная модель, генерирующая изображения по текстовому описанию. Во время обучения диффузионной модели для генерации изображений на вход подаётся изображение из обучающей выборки, к которому был добавлен шум определённой интенсивности. Задача модели – восстановить из зашумлённого изображения исходное. После обучения генерация изображений происходит путём последовательного удаления шума из данных: на каждом шаге модель убирает определённую долю шума из текущего вход и тем самым генерирует более «чистое» изображение, в качестве входа на первом шаге используется случайный гауссовский шум. Для того чтобы обучить модель генерировать не произвольные, а соответствующие текстовым описаниям, во время обучения модели помимо зашумлённого изображения подаётся на вход также его текстовое описание. Таким образом модель учится использовать информацию из текстового описания для удаления шума из изображения. В случае Stable Diffusion модель обучается удалять шум не из изображений, а из их векторных представлений, полученных с помощью заранее обученного автокодировщика. Автокодировщик состоит из двух частей: кодировщика и декодировщика. Кодировщик строит сжатое векторное представление изображения, а декодировщик из него восстанавливает изображение. Использование векторных представлений изображений вместо самих изображений объясняется тем, что векторные представления намного более компактны и содержат только важную информацию об изображении. За счёт этих преимуществ модель обучается и работает значительно быстрее. Для кодирования текстового описания в Stable Diffusion используется модель CLIP.
Примеры использования:
Нововведения
Количество параметров: ~1B
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…