DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries

要約

最新のビデオ セグメンテーション手法では、オブジェクト クエリを採用してフレーム間の関連付けを実行し、大規模な動きや一時的なオクルージョンにもかかわらず、継続的に出現するオブジェクトの追跡において満足のいくパフォーマンスを実証しています。
ただし、これらはいずれも、大きな特徴ギャップがある背景クエリと前景クエリの間の特徴遷移を通じてオブジェクトの出現と消滅をモデル化しようとしているため、現実世界でよくある新たに出現したオブジェクトや消滅したオブジェクトに対してはパフォーマンスが低下します。
動的アンカー クエリ (DAQ) を導入し、潜在的な候補の特徴に基づいてアンカー クエリを動的に生成することで、アンカー クエリとターゲット クエリの間の遷移ギャップを短縮します。
さらに、追加コストをかけずに DAQ の可能性を解き放つ、クエリ レベルのオブジェクト出現消滅シミュレーション (EDS) 戦略を導入します。
最後に、提案した DAQ および EDS を DVIS と組み合わせて、DVIS-DAQ を取得します。
広範な実験により、DVIS-DAQ が 5 つの主流ビデオ セグメンテーション ベンチマークで新しい最先端 (SOTA) パフォーマンスを達成することが実証されました。
コードとモデルは \url{https://github.com/SkyworkAI/DAQ-VS} で入手できます。

要約(オリジナル)

Modern video segmentation methods adopt object queries to perform inter-frame association and demonstrate satisfactory performance in tracking continuously appearing objects despite large-scale motion and transient occlusion. However, they all underperform on newly emerging and disappearing objects that are common in the real world because they attempt to model object emergence and disappearance through feature transitions between background and foreground queries that have significant feature gaps. We introduce Dynamic Anchor Queries (DAQ) to shorten the transition gap between the anchor and target queries by dynamically generating anchor queries based on the features of potential candidates. Furthermore, we introduce a query-level object Emergence and Disappearance Simulation (EDS) strategy, which unleashes DAQ’s potential without any additional cost. Finally, we combine our proposed DAQ and EDS with DVIS to obtain DVIS-DAQ. Extensive experiments demonstrate that DVIS-DAQ achieves a new state-of-the-art (SOTA) performance on five mainstream video segmentation benchmarks. Code and models are available at \url{https://github.com/SkyworkAI/DAQ-VS}.

arxiv情報

著者 Yikang Zhou,Tao Zhang,Shunping Ji,Shuicheng Yan,Xiangtai Li
発行日 2024-04-05 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク