要約
テキストのクエリと対応するビデオが与えられた場合、瞬間検索の目的は、ビデオ内のクエリに関連する瞬間を特定することです。
既存のトランスベースのアプローチによって賞賛に値する結果が実証されていますが、ターゲットの瞬間の正確な時間スパンを予測することは、現時点では依然として大きな課題です。
この論文では、決定的な理由がテキスト クエリと瞬間コンテキストの間の誤った相関関係に起因することを明らかにします。
つまり、モデルはテキストのクエリをターゲットの瞬間ではなく背景フレームに関連付けることができます。
この問題に対処するために、モーメント検索のための時間動的学習アプローチを提案します。このアプローチでは、偽の相関を軽減するために 2 つの戦略が設計されています。
まず、関連する瞬間の動的なコンテキストを構築するための新しいビデオ合成アプローチを導入します。
個別ではあるが類似したビデオが混在しているため、合成アプローチにより、モデルはさまざまな動的コンテキストの下で、対応するクエリのターゲットの瞬間に対応できるようになります。
次に、時間ダイナミクスを学習することで表現を強化します。
視覚的表現に加えて、テキスト クエリは時間的な動的表現と連携しているため、モデルはクエリ関連の瞬間とコンテキストの間に偽りのない相関関係を確立できます。
前述の提案手法を使用すると、モーメント検索における偽相関の問題を大幅に軽減できます。
私たちの手法は、モーメント検索の 2 つの一般的なベンチマーク、つまり QVHighlights と Charades-STA での新しい最先端のパフォーマンスを確立します。
さらに、詳細なアブレーション分析により、提案された戦略の有効性が実証されています。
私たちのコードは公開される予定です。
要約(オリジナル)
Given a textual query along with a corresponding video, the objective of moment retrieval aims to localize the moments relevant to the query within the video. While commendable results have been demonstrated by existing transformer-based approaches, predicting the accurate temporal span of the target moment is currently still a major challenge. In this paper, we reveal that a crucial reason stems from the spurious correlation between the text queries and the moment context. Namely, the model may associate the textual query with the background frames rather than the target moment. To address this issue, we propose a temporal dynamic learning approach for moment retrieval, where two strategies are designed to mitigate the spurious correlation. First, we introduce a novel video synthesis approach to construct a dynamic context for the relevant moment. With separate yet similar videos mixed up, the synthesis approach empowers our model to attend to the target moment of the corresponding query under various dynamic contexts. Second, we enhance the representation by learning temporal dynamics. Besides the visual representation, text queries are aligned with temporal dynamic representations, which enables our model to establish a non-spurious correlation between the query-related moment and context. With the aforementioned proposed method, the spurious correlation issue in moment retrieval can be largely alleviated. Our method establishes a new state-of-the-art performance on two popular benchmarks of moment retrieval, \ie, QVHighlights and Charades-STA. In addition, the detailed ablation analyses demonstrate the effectiveness of the proposed strategies. Our code will be publicly available.
arxiv情報
著者 | Xinyang Zhou,Fanyue Wei,Lixin Duan,Wen Li |
発行日 | 2025-01-13 13:13:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google