Компания Meta* представила SAM 3 и SAM 3D — обновление своей линейки моделей компьютерного зрения Segment Anything.
SAM 3 может находить и выделять объекты на изображениях и на видео по текстовым описаниям. В отличие от предыдущих версий, которые работали только с визуальными подсказками (например, на нужный объект нужно было кликнуть или обвести его рамкой), новая модель понимает текстовые запросы вроде «жёлтый школьный автобус» или «люди в красных кепках».
SAM 3D позволяет генерировать 3D-модели объектов из двумерных изображений. SAM 3D состоит из двух моделей: SAM 3D Objects восстанавливает трёхмерную геометрию и текстуры предметов, а SAM 3D Body — позы и формы человеческого тела. Обе модели работают с одним изображением, без необходимости в специальных камерах.
Meta выпустила веса моделей, код и бенчмарки. Обе модели опубликованы в открытом доступе на официальном сайте.
Почему это важно?
Модели линейки SAM универсальны — они позволяют выделять произвольные объекты на самых разных изображениях и видео. Поэтому их можно применять в разных областях: обработка фото и видео, робототехника, AR/VR.
Meta уже внедряет модели в свои продукты. SAM 3 используется в приложении Edits для создания видеоэффектов, а SAM 3D обеспечивает работу функции «Просмотр в комнате» на Facebook Marketplace, позволяя покупателям визуализировать мебель в своём интерьере перед покупкой.