Temporally Consistent Referring Video Object Segmentation with Hybrid Memory

要約

参照ビデオ オブジェクト セグメンテーション (R-VOS) 手法は、時間的なコンテキストの変動や視覚的に類似した他のオブジェクトの存在により、一貫したオブジェクト セグメンテーションを維持するという課題に直面しています。
私たちは、参照セグメンテーションとともに一時的なインスタンスの一貫性を明示的にモデル化するエンドツーエンドの R-VOS パラダイムを提案します。
具体的には、堅牢な時空間マッチングと伝播のためのフレーム間のコラボレーションを容易にする新しいハイブリッド メモリを導入します。
自動的に生成された高品質の参照マスクを持つフレームの特徴は、多重粒度の関連付けに基づいて残りのフレームをセグメント化するために伝播され、時間的に一貫した R-VOS を実現します。
さらに、ビデオセグメンテーションの時間的一貫性を評価するための新しいマスク一貫性スコア(MCS)メトリックを提案します。
広範な実験により、私たちのアプローチにより時間的一貫性が大幅に向上し、一般的な R-VOS ベンチマーク、つまり Ref-YouTube-VOS (67.1%) および Ref-DAVIS17 (65.6%) でトップランクのパフォーマンスが得られることが実証されました。
コードは https://github.com/bo-miao/HTR で入手できます。

要約(オリジナル)

Referring Video Object Segmentation (R-VOS) methods face challenges in maintaining consistent object segmentation due to temporal context variability and the presence of other visually similar objects. We propose an end-to-end R-VOS paradigm that explicitly models temporal instance consistency alongside the referring segmentation. Specifically, we introduce a novel hybrid memory that facilitates inter-frame collaboration for robust spatio-temporal matching and propagation. Features of frames with automatically generated high-quality reference masks are propagated to segment the remaining frames based on multi-granularity association to achieve temporally consistent R-VOS. Furthermore, we propose a new Mask Consistency Score (MCS) metric to evaluate the temporal consistency of video segmentation. Extensive experiments demonstrate that our approach enhances temporal consistency by a significant margin, leading to top-ranked performance on popular R-VOS benchmarks, i.e., Ref-YouTube-VOS (67.1%) and Ref-DAVIS17 (65.6%). The code is available at https://github.com/bo-miao/HTR.

arxiv情報

著者 Bo Miao,Mohammed Bennamoun,Yongsheng Gao,Mubarak Shah,Ajmal Mian
発行日 2024-10-11 14:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク