Модели

ViT

Модель с архитектурой Transformer для работы с изображениями

date_range

Год выпуска: 2020

assignment

Описание

ViT (Vision Transformer) – модель с архитектурой Transformer, предназначенная для работы с изображениями. Изначально архитектура Transformer была изобретена для работы с последовательностями (в сущности – с текстовыми последовательностями). Поэтому перед тем, как подать изображение на вход модели, оно преобразовывается в последовательность: изображение делится на непересекающиеся фрагменты одинаковых размеров. Затем полученный набор фрагментов обрабатывается стандартным Transformer’ом. В отличие от свёрточных нейросетей в архитектуре ViT практически не используются специфичные знания о домене изображений. Таким образом, ViT стал очередным подтверждением того, что Transformer – это универсальная и при этом эффективная архитектура. ViT достигает более высокое качество решения задач, чем классические свёрточные сети, а также легче масштабируется. Однако для обучения ViT необходимо больше данных. 

Примеры использования:

Классификация изображений, детекция объектов на изображении, сегментация изображений

Нововведения

Адаптация архитектуры Transformer под домен изображений

Количество параметров: 86M-632M

Share

Recent Posts

GPT решила знаменитую нерешенную задачу математики, Google показал новый ИИ-поиск

Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время

25.05.2026

ИИ найдет «скрытых» детей в соцсетях по костям лица

Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст

19.05.2026

Какая математика нужна джуну в NLP?

Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…

19.05.2026