CLIP

Мультимодальная модель, способная строить векторные представления текстов и изображений

22.06.2021

Год выпуска: 2021

Описание

CLIP (Contrastive Language-Image Pre-training) – мультимодальная (работающая с несколькими модальностями данных) модель. CLIP сопоставляет тексту и изображению векторы из одного пространства, учитывающее семантику обеих модальностей. Так, например, векторное представление текста «собака и кошка, играющие во дворе» будет похоже на векторные представления изображений с собакой и кошкой, играющих во дворе и наоборот. Для обучения CLIP была использована объёмная обучающая выборка пар изображений и текстов, которые их описывают, а также Contrastive Learning. Идея Contrastive Learning заключается в том, что представления соответствующих объектов должны быть близки друг к другу, а представления разных объектов – далеки. Архитектурно CLIP состоит из двух моделей – Transformer для текста и ViT для изображений. В оригинальное статье было показано, что представления, извлекаемые ViT, который был обучен таким образом, более информативны, чем представления ViT, обученного классическим образом. Также мультимодальность CLIP позволяет решать задачу классификации изображений в Zero-Shot режиме. То есть модель может классифицировать изображения классов, которых не было в обучающей выборке. Для этого измеряется близость между изображением и представлениями текстовых описаний классов (например, текстовым описанием класса «синица» будет текст «фото синицы»): классом изображения будет тот класс, текстовое описание которого имеет наиболее близкое представление к представлению изображения.

Оригинальная статья

Где можно попробовать

Примеры использования:

Классификация изображений

Поиск изображений по тексту и наоборот
Использование представлений, извлечённых моделью, для генерации изображений по тексту и генерации описаний изображений, а также для решения многих задача компьютерного зрения

Нововведения

Модель способна преобразывать тексты и изображения в общее пространство

Количество параметров: 199M – 972M

Автор: Михаил Ким

Теги:CV, Multimodal, NLP, OpenAI, Representation, Transformer

Next DALL-E »

Previous « Привет с фронта: военные открытки

Tags: CVMultimodalNLPOpenAIRepresentationTransformer

22.06.2021

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

CLIP

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз