SAM 3 находит объекты по тексту, а SAM 3D строит 3D-модели из одного изображения.
Компания Meta* представила SAM 3 и SAM 3D — обновление своей линейки моделей компьютерного зрения Segment Anything.
SAM 3 может находить и выделять объекты на изображениях и на видео по текстовым описаниям. В отличие от предыдущих версий, которые работали только с визуальными подсказками (например, на нужный объект нужно было кликнуть или обвести его рамкой), новая модель понимает текстовые запросы вроде «жёлтый школьный автобус» или «люди в красных кепках».
SAM 3D позволяет генерировать 3D-модели объектов из двумерных изображений. SAM 3D состоит из двух моделей: SAM 3D Objects восстанавливает трёхмерную геометрию и текстуры предметов, а SAM 3D Body — позы и формы человеческого тела. Обе модели работают с одним изображением, без необходимости в специальных камерах.
Meta выпустила веса моделей, код и бенчмарки. Обе модели опубликованы в открытом доступе на официальном сайте.
Модели линейки SAM универсальны — они позволяют выделять произвольные объекты на самых разных изображениях и видео. Поэтому их можно применять в разных областях: обработка фото и видео, робототехника, AR/VR.
Meta уже внедряет модели в свои продукты. SAM 3 используется в приложении Edits для создания видеоэффектов, а SAM 3D обеспечивает работу функции «Просмотр в комнате» на Facebook Marketplace, позволяя покупателям визуализировать мебель в своём интерьере перед покупкой.
Компания Google представила много новых ИИ-продуктов, а модель GPT опровергла известную математическую гипотезу Пала Эрдёша — рассказываем, что произошло в мире ИИ за последнее время
Facebook* и Instagram* будут сканировать фото и видео, чтобы находить детей, которые скрыли свой возраст
Можно ли заниматься NLP, если при словах «производная» и «матрица» хочется закрыть ноутбук? Да — если изучать математику не абстрактно, а через реальные задачи. Объясняем, какие разделы действительно нужны джуну,…