Год выпуска: 2020
Описание
ViT (Vision Transformer) – модель с архитектурой Transformer, предназначенная для работы с изображениями. Изначально архитектура Transformer была изобретена для работы с последовательностями (в сущности – с текстовыми последовательностями). Поэтому перед тем, как подать изображение на вход модели, оно преобразовывается в последовательность: изображение делится на непересекающиеся фрагменты одинаковых размеров. Затем полученный набор фрагментов обрабатывается стандартным Transformer’ом. В отличие от свёрточных нейросетей в архитектуре ViT практически не используются специфичные знания о домене изображений. Таким образом, ViT стал очередным подтверждением того, что Transformer – это универсальная и при этом эффективная архитектура. ViT достигает более высокое качество решения задач, чем классические свёрточные сети, а также легче масштабируется. Однако для обучения ViT необходимо больше данных.
Примеры использования:
Классификация изображений, детекция объектов на изображении, сегментация изображений
Нововведения
Адаптация архитектуры Transformer под домен изображений
Количество параметров: 86M-632M