VideoSAM: Open-World Video Segmentation

要約

ビデオ セグメンテーションは、ロボット工学と自動運転の進歩に不可欠であり、特にビデオ フレーム間での継続的な認識とオブジェクトの関連付けが重要なオープンワールド環境では不可欠です。
Segment Anything Model (SAM) は静的画像のセグメンテーションでは優れていますが、その機能をビデオ セグメンテーションに拡張すると大きな課題が生じます。
私たちは 2 つの大きなハードルに取り組みます。a) フレーム間でオブジェクトを関連付ける際の SAM の埋め込み制限、b) オブジェクトのセグメンテーションにおける粒度の不一致です。
この目的を達成するために、動的環境におけるオブジェクト追跡とセグメンテーションの一貫性を向上させることで、これらの課題に対処するように設計されたエンドツーエンドのフレームワークである VideoSAM を導入します。
VideoSAM は、集約されたバックボーンである RADIO を統合し、類似性メトリクスによるオブジェクトの関連付けを可能にし、安定したオブジェクト追跡のためのメモリ メカニズムを備えた Cycle-ack-Pairs Propagation を導入します。
さらに、フレーム全体で一貫した粒度を維持するために、SAM デコーダ内に自己回帰オブジェクト トークン メカニズムを組み込んでいます。
私たちの手法は、UVO および BURST ベンチマーク、および RoboTAP のロボット ビデオで広範囲に評価され、現実世界のシナリオにおけるその有効性と堅牢性が実証されています。
すべてのコードが利用可能になります。

要約(オリジナル)

Video segmentation is essential for advancing robotics and autonomous driving, particularly in open-world settings where continuous perception and object association across video frames are critical. While the Segment Anything Model (SAM) has excelled in static image segmentation, extending its capabilities to video segmentation poses significant challenges. We tackle two major hurdles: a) SAM’s embedding limitations in associating objects across frames, and b) granularity inconsistencies in object segmentation. To this end, we introduce VideoSAM, an end-to-end framework designed to address these challenges by improving object tracking and segmentation consistency in dynamic environments. VideoSAM integrates an agglomerated backbone, RADIO, enabling object association through similarity metrics and introduces Cycle-ack-Pairs Propagation with a memory mechanism for stable object tracking. Additionally, we incorporate an autoregressive object-token mechanism within the SAM decoder to maintain consistent granularity across frames. Our method is extensively evaluated on the UVO and BURST benchmarks, and robotic videos from RoboTAP, demonstrating its effectiveness and robustness in real-world scenarios. All codes will be available.

arxiv情報

著者 Pinxue Guo,Zixu Zhao,Jianxiong Gao,Chongruo Wu,Tong He,Zheng Zhang,Tianjun Xiao,Wenqiang Zhang
発行日 2024-10-11 12:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク