要約
参照ビデオオブジェクトセグメンテーションは、自然言語プロンプトを使用してビデオ内のターゲットオブジェクトをセグメント化および追跡することを目的としています。
既存の方法は通常、視覚的およびテキストの特徴を非常に絡み合った方法で融合し、マルチモーダル情報を一緒に処理して、フレームごとのマスクを生成します。
ただし、このアプローチは、特に複数の同様のオブジェクトを持つシーンでは、曖昧なターゲット識別に苦労していることが多く、フレーム全体で一貫したマスク伝播を確保できません。
これらの制限に対処するために、ターゲットの識別をマスク伝播から分離する新しい分離フレームワークであるFindTrackを紹介します。
FindTrackは、最初にセグメンテーションの信頼性とビジョンテキストアラインメントのバランスをとることにより、キーフレームを適応的に選択し、ターゲットオブジェクトの堅牢な参照を確立します。
この参照は、専用の伝播モジュールによって使用され、ビデオ全体でオブジェクトを追跡およびセグメント化します。
これらのプロセスを切り離すことにより、FindTrackはターゲット関連の曖昧さを効果的に減らし、セグメンテーションの一貫性を高めます。
FindTrackがパブリックベンチマーク上の既存の方法を上回ることを実証します。
要約(オリジナル)
Referring video object segmentation aims to segment and track a target object in a video using a natural language prompt. Existing methods typically fuse visual and textual features in a highly entangled manner, processing multi-modal information together to generate per-frame masks. However, this approach often struggles with ambiguous target identification, particularly in scenes with multiple similar objects, and fails to ensure consistent mask propagation across frames. To address these limitations, we introduce FindTrack, a novel decoupled framework that separates target identification from mask propagation. FindTrack first adaptively selects a key frame by balancing segmentation confidence and vision-text alignment, establishing a robust reference for the target object. This reference is then utilized by a dedicated propagation module to track and segment the object across the entire video. By decoupling these processes, FindTrack effectively reduces ambiguities in target association and enhances segmentation consistency. We demonstrate that FindTrack outperforms existing methods on public benchmarks.
arxiv情報
著者 | Suhwan Cho,Seunghoon Lee,Minhyeok Lee,Jungho Lee,Sangyoun Lee |
発行日 | 2025-03-05 13:32:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google