要約
この論文では、ビデオレベルの視覚と言語の整合性を高めることによる、ビデオ オブジェクト セグメンテーション (RVOS) の参照について研究します。
最近のアプローチでは、RVOS タスクをシーケンス予測問題としてモデル化し、マルチモーダルな相互作用と各フレームのセグメンテーションを個別に実行します。
しかし、ビデオ コンテンツの全体像が欠如しているため、フレーム間の関係を効果的に利用したり、オブジェクトの時間的変化をテキストで説明することを理解することが困難になります。
この問題に対処するために、私たちは、統合時間モデリングとクロスモーダル調整のためのビデオ コンテンツとテキスト ガイダンスを集約するセマンティック支援オブジェクト クラスター (SOC) を提案します。
フレームレベルのオブジェクト埋め込みのグループを言語トークンに関連付けることにより、SOC はモダリティとタイムステップにわたる共同空間学習を促進します。
さらに、ビデオレベルで適切に位置合わせされた関節空間を構築するのに役立つマルチモーダルコントラスト監視を紹介します。
当社は一般的な RVOS ベンチマークで広範な実験を実施しており、当社の手法はすべてのベンチマークで最先端の競合他社を大幅に上回っています。
さらに、時間的一貫性を重視することで、時間的変動のあるテキスト表現を処理する際の私たちの方法のセグメンテーションの安定性と適応性が向上します。
コードが利用可能になります。
要約(オリジナル)
This paper studies referring video object segmentation (RVOS) by boosting video-level visual-linguistic alignment. Recent approaches model the RVOS task as a sequence prediction problem and perform multi-modal interaction as well as segmentation for each frame separately. However, the lack of a global view of video content leads to difficulties in effectively utilizing inter-frame relationships and understanding textual descriptions of object temporal variations. To address this issue, we propose Semantic-assisted Object Cluster (SOC), which aggregates video content and textual guidance for unified temporal modeling and cross-modal alignment. By associating a group of frame-level object embeddings with language tokens, SOC facilitates joint space learning across modalities and time steps. Moreover, we present multi-modal contrastive supervision to help construct well-aligned joint space at the video level. We conduct extensive experiments on popular RVOS benchmarks, and our method outperforms state-of-the-art competitors on all benchmarks by a remarkable margin. Besides, the emphasis on temporal coherence enhances the segmentation stability and adaptability of our method in processing text expressions with temporal variations. Code will be available.
arxiv情報
著者 | Zhuoyan Luo,Yicheng Xiao,Yong Liu,Shuyan Li,Yitong Wang,Yansong Tang,Xiu Li,Yujiu Yang |
発行日 | 2023-05-26 15:13:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google