Читать нас в Telegram
date_range

Год выпуска: 2021

assignment

Описание

CLIP (Contrastive Language-Image Pre-training) – мультимодальная (работающая с несколькими модальностями данных) модель. CLIP сопоставляет тексту и изображению векторы из одного пространства, учитывающее семантику обеих модальностей. Так, например, векторное представление текста «собака и кошка, играющие во дворе» будет похоже на векторные представления изображений с собакой и кошкой, играющих во дворе и наоборот. Для обучения CLIP была использована объёмная обучающая выборка пар изображений и текстов, которые их описывают, а также Contrastive Learning. Идея Contrastive Learning заключается в том, что представления соответствующих объектов должны быть близки друг к другу, а представления разных объектов – далеки. Архитектурно CLIP состоит из двух моделей – Transformer для текста и ViT для изображений. В оригинальное статье было показано, что представления, извлекаемые ViT, который был обучен таким образом, более информативны, чем представления ViT, обученного классическим образом. Также мультимодальность CLIP позволяет решать задачу классификации изображений в Zero-Shot режиме. То есть модель может классифицировать изображения классов, которых не было в обучающей выборке. Для этого измеряется близость между изображением и представлениями текстовых описаний классов (например, текстовым описанием класса «синица» будет текст «фото синицы»): классом изображения будет тот класс, текстовое описание которого имеет наиболее близкое представление к представлению изображения.

Примеры использования:

  • Классификация изображений
  • Поиск изображений по тексту и наоборот
  • Использование представлений, извлечённых моделью, для генерации изображений по тексту и генерации описаний изображений, а также для решения многих задача компьютерного зрения

Нововведения

Модель способна преобразывать тексты и изображения в общее пространство

Количество параметров: 199M – 972M