Correlation-guided Query-Dependency Calibration in Video Representation Learning for Temporal Grounding

要約

ビデオの時間的グラウンディングに関する最近の取り組みでは、ビデオとテキスト クエリの間のモダリティ ギャップを克服するために、アテンション メカニズムを通じて強力なクロスモーダル インタラクションを強化しています。
ただし、以前の作品では、アテンション モジュール内のテキスト クエリとの意味的な関連性に関係なく、すべてのビデオ クリップが平等に扱われていました。
このペーパーでは、クロスモーダル エンコーディング プロセス内でクエリに関連するビデオ クリップの手掛かりを提供することが私たちの目標です。
Correlation-Guided Detection Transformer~(CG-DETR) を使用して、クリップごとのクロスモーダル インタラクションの適切な程度と、その程度を予測に活用する方法を探ります。
まず、ダミー トークンを使用して適応型クロスアテンション レイヤーを設計します。
テキスト クエリによって条件付けされたダミー トークンはアテンションの重みの一部を取得し、無関係なビデオ クリップがテキスト クエリによって表されるのを防ぎます。
ただし、すべての単語トークンがテキスト クエリとビデオ クリップの相関関係を等しく継承するわけではありません。
したがって、ビデオクリップと単語の間のきめの細かい相関関係を推測することで、クロスアテンションマップをさらに導きます。
これは、高レベルの概念、つまりモーメントとセンテンスレベルの結合埋め込み空間を学習し、クリップと単語の相関関係を推測することによって可能になります。
最後に、瞬間適応型顕著性検出器を使用して、各ビデオ クリップのテキスト関与度を活用します。
モーメント検索とハイライト検出の両方について、さまざまなベンチマークに関する最先端の結果を用いて CG-DETR の優位性を検証します。
コードは https://github.com/wjun0830/CGDETR で入手できます。

要約(オリジナル)

Recent endeavors in video temporal grounding enforce strong cross-modal interactions through attention mechanisms to overcome the modality gap between video and text query. However, previous works treat all video clips equally regardless of their semantic relevance with the text query in attention modules. In this paper, our goal is to provide clues for query-associated video clips within the crossmodal encoding process. With our Correlation-Guided Detection Transformer~(CG-DETR), we explore the appropriate clip-wise degree of cross-modal interactions and how to exploit such degrees for prediction. First, we design an adaptive cross-attention layer with dummy tokens. Dummy tokens conditioned by text query take a portion of the attention weights, preventing irrelevant video clips from being represented by the text query. Yet, not all word tokens equally inherit the text query’s correlation to video clips. Thus, we further guide the cross-attention map by inferring the fine-grained correlation between video clips and words. We enable this by learning a joint embedding space for high-level concepts, i.e., moment and sentence level, and inferring the clip-word correlation. Lastly, we use a moment-adaptive saliency detector to exploit each video clip’s degrees of text engagement. We validate the superiority of CG-DETR with the state-of-the-art results on various benchmarks for both moment retrieval and highlight detection. Codes are available at https://github.com/wjun0830/CGDETR.

arxiv情報

著者 WonJun Moon,Sangeek Hyun,SuBeen Lee,Jae-Pil Heo
発行日 2023-11-15 10:22:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク