Модели

CLIP

Мультимодальная модель, способная строить векторные представления текстов и изображений

date_range

Год выпуска: 2021

assignment

Описание

CLIP (Contrastive Language-Image Pre-training) – мультимодальная (работающая с несколькими модальностями данных) модель. CLIP сопоставляет тексту и изображению векторы из одного пространства, учитывающее семантику обеих модальностей. Так, например, векторное представление текста «собака и кошка, играющие во дворе» будет похоже на векторные представления изображений с собакой и кошкой, играющих во дворе и наоборот. Для обучения CLIP была использована объёмная обучающая выборка пар изображений и текстов, которые их описывают, а также Contrastive Learning. Идея Contrastive Learning заключается в том, что представления соответствующих объектов должны быть близки друг к другу, а представления разных объектов – далеки. Архитектурно CLIP состоит из двух моделей – Transformer для текста и ViT для изображений. В оригинальное статье было показано, что представления, извлекаемые ViT, который был обучен таким образом, более информативны, чем представления ViT, обученного классическим образом. Также мультимодальность CLIP позволяет решать задачу классификации изображений в Zero-Shot режиме. То есть модель может классифицировать изображения классов, которых не было в обучающей выборке. Для этого измеряется близость между изображением и представлениями текстовых описаний классов (например, текстовым описанием класса «синица» будет текст «фото синицы»): классом изображения будет тот класс, текстовое описание которого имеет наиболее близкое представление к представлению изображения.

Примеры использования:

  • Классификация изображений
  • Поиск изображений по тексту и наоборот
  • Использование представлений, извлечённых моделью, для генерации изображений по тексту и генерации описаний изображений, а также для решения многих задача компьютерного зрения

Нововведения

Модель способна преобразывать тексты и изображения в общее пространство

Количество параметров: 199M – 972M

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026