Disentangle and denoise: Tackling context misalignment for video moment retrieval

要約

ビデオモーメント検索は、自然言語クエリに従ってコンテキスト内のビデオモーメントを特定することを目的としており、クロスモーダルグラウンディングには不可欠なタスクです。
既存の方法は、ビデオを理解するためにすべての瞬間とテキストの説明の間のクロスモーダルな相互作用を強化することに焦点を当てています。
ただし、タイムライン全体でセマンティックの分布が不均一であり、視覚的な背景がうるさいため、すべての場所と常に対話することは不合理です。
この論文では、複雑な相関関係を解きほぐし、無関係なダイナミクスをノイズ除去することにより、正確な瞬間を取得するためのクロスモーダル コンテキスト デノイズ ネットワーク (CDNet) を提案します。具体的には、
グローバルかつきめ細かい相関関係。
コンテキスト認識動的ノイズ除去 (CDD) は、クエリ関連のオフセットのグループを学習することによって、位置合わせされた時空間の詳細の理解を強化するために提案されています。
公開ベンチマークでの広範な実験により、提案された CDNet が最先端のパフォーマンスを達成することが実証されました。

要約(オリジナル)

Video Moment Retrieval, which aims to locate in-context video moments according to a natural language query, is an essential task for cross-modal grounding. Existing methods focus on enhancing the cross-modal interactions between all moments and the textual description for video understanding. However, constantly interacting with all locations is unreasonable because of uneven semantic distribution across the timeline and noisy visual backgrounds. This paper proposes a cross-modal Context Denoising Network (CDNet) for accurate moment retrieval by disentangling complex correlations and denoising irrelevant dynamics.Specifically, we propose a query-guided semantic disentanglement (QSD) to decouple video moments by estimating alignment levels according to the global and fine-grained correlation. A Context-aware Dynamic Denoisement (CDD) is proposed to enhance understanding of aligned spatial-temporal details by learning a group of query-relevant offsets. Extensive experiments on public benchmarks demonstrate that the proposed CDNet achieves state-of-the-art performances.

arxiv情報

著者 Kaijing Ma,Han Fang,Xianghao Zang,Chao Ban,Lanxiang Zhou,Zhongjiang He,Yongxiang Li,Hao Sun,Zerun Feng,Xingsong Hou
発行日 2024-08-14 15:00:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク