X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval

要約

ビデオ テキストの検索は、マルチ モーダル研究における重要かつ基本的なタスクとなっています。
ビデオテキスト検索の開発は、主に粗粒度または細粒度のコントラストに焦点を当てた大規模なマルチモーダルコントラスト事前トレーニングによって大幅に促進されました。
ただし、粗粒度表現と細粒度表現の対比であるクロスグレイン コントラストは、先行研究ではほとんど検討されていません。
細粒度または粗粒度のコントラストと比較して、クロスグレイン コントラストは、粗粒度の特徴と各細粒度の特徴との間の相関を計算し、粗粒度の特徴によって導かれる不要な細粒度の特徴を除外することができます。
類似度計算を行い、検索精度を向上させます。
この目的のために、この論文では、ビデオテキスト検索用の新しいマルチグレインコントラストモデル、つまり X-CLIP を提示します。
ただし、別の課題は、インスタンス レベルの類似性に細粒度およびクロスグレインの類似性マトリックスを集約することを目的とした類似性集約問題にあります。
この課題に対処するために、Attention Over Similarity Matrix (AOSM) モジュールを提案して、モデルが本質的なフレームと単語の間のコントラストに焦点を当てるようにし、不要なフレームと単語が検索結果に与える影響を軽減します。
マルチグレイン コントラストと提案された AOSM モジュールにより、X-CLIP は、MSR-VTT (49.3 R@1)、MSVD (50.4 R@1)、LSMDC (26.1
R@1)、DiDeMo (47.8 R@1)、ActivityNet (46.2 R@1)。
これらのベンチマークでは、以前の状態を +6.3%、+6.6%、+11.1%、+6.7%、+3.8% 上回っており、マルチグレイン コントラストと AOSM の優位性を示しています。

要約(オリジナル)

Video-text retrieval has been a crucial and fundamental task in multi-modal research. The development of video-text retrieval has been considerably promoted by large-scale multi-modal contrastive pre-training, which primarily focuses on coarse-grained or fine-grained contrast. However, cross-grained contrast, which is the contrast between coarse-grained representations and fine-grained representations, has rarely been explored in prior research. Compared with fine-grained or coarse-grained contrasts, cross-grained contrast calculate the correlation between coarse-grained features and each fine-grained feature, and is able to filter out the unnecessary fine-grained features guided by the coarse-grained feature during similarity calculation, thus improving the accuracy of retrieval. To this end, this paper presents a novel multi-grained contrastive model, namely X-CLIP, for video-text retrieval. However, another challenge lies in the similarity aggregation problem, which aims to aggregate fine-grained and cross-grained similarity matrices to instance-level similarity. To address this challenge, we propose the Attention Over Similarity Matrix (AOSM) module to make the model focus on the contrast between essential frames and words, thus lowering the impact of unnecessary frames and words on retrieval results. With multi-grained contrast and the proposed AOSM module, X-CLIP achieves outstanding performance on five widely-used video-text retrieval datasets, including MSR-VTT (49.3 R@1), MSVD (50.4 R@1), LSMDC (26.1 R@1), DiDeMo (47.8 R@1) and ActivityNet (46.2 R@1). It outperforms the previous state-of-theart by +6.3%, +6.6%, +11.1%, +6.7%, +3.8% relative improvements on these benchmarks, demonstrating the superiority of multi-grained contrast and AOSM.

arxiv情報

著者 Yiwei Ma,Guohai Xu,Xiaoshuai Sun,Ming Yan,Ji Zhang,Rongrong Ji
発行日 2022-09-22 12:27:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク