ViT

Модель с архитектурой Transformer для работы с изображениями

22.06.2020

Год выпуска: 2020

Описание

ViT (Vision Transformer) – модель с архитектурой Transformer, предназначенная для работы с изображениями. Изначально архитектура Transformer была изобретена для работы с последовательностями (в сущности – с текстовыми последовательностями). Поэтому перед тем, как подать изображение на вход модели, оно преобразовывается в последовательность: изображение делится на непересекающиеся фрагменты одинаковых размеров. Затем полученный набор фрагментов обрабатывается стандартным Transformer’ом. В отличие от свёрточных нейросетей в архитектуре ViT практически не используются специфичные знания о домене изображений. Таким образом, ViT стал очередным подтверждением того, что Transformer – это универсальная и при этом эффективная архитектура. ViT достигает более высокое качество решения задач, чем классические свёрточные сети, а также легче масштабируется. Однако для обучения ViT необходимо больше данных.

О ригинальная статья

Где можно попробовать

Примеры использования:

Классификация изображений, детекция объектов на изображении, сегментация изображений

Нововведения

Адаптация архитектуры Transformer под домен изображений

Количество параметров: 86M-632M

Автор: Михаил Ким

Теги:CV, Google, Transformer

Next Мы вытаскиваем людей из небытия: интервью с техническим руководителем ОБД «Мемориал» Виктором Тумаркиным »

Previous « Коллективная память в эпоху её технической воспроизводимости

Tags: CVGoogleTransformer

22.06.2020

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

США усилили контроль над лидирующими ИИ моделями, ученые смогли полностью прочитать античный свиток, не разворачивая его — что произошло в…

06.07.2026

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Агенты, которые самостоятельно планируют свои действия и пользуются внешними инструментами. Модели, способные работать с миллионами токенов. Системы, которые помогают сохранять…

02.07.2026

Новости

Национальный корпус русского языка вырос в шесть раз

Теперь в него входят тексты ВКонтакте — почти 11,3 млрд слов из соцсетей

30.06.2026

ViT

Recent Posts

Жесткая регуляция LLM в США, ИИ полностью прочитал обугленный свиток

От ИИ-агентов до малых языков: куда движется NLP в 2026 году

Национальный корпус русского языка вырос в шесть раз