ProTA: Probabilistic Token Aggregation for Text-Video Retrieval

要約

テキストビデオ検索は、特定のクエリに対して最も関連性の高いクロスモーダル サンプルを見つけることを目的としています。
最近の手法は、時空間関係全体のモデル化に焦点を当てています。
ただし、ビデオ クリップにはキャプションよりも多様なコンテンツが含まれているため、これらの非対称のビデオとテキストのペアを調整するモデルでは、多くの誤検知結果が取得されるリスクが高くなります。
この論文では、コンテンツの非対称性を伴うクロスモーダル インタラクションを処理する確率的トークン集約 (\textit{ProTA}) を提案します。
具体的には、低次元空間と高次元空間の両方でトークン表現を解きほぐし、再集約するための二重部分関連集約を提案します。
トークンレベルの確率的表現を生成し、特徴表現の多様性を維持するために、トークンベースの確率的アライメントを提案します。
さらに、コンパクトなクロスモーダル分布空間を学習するための適応コントラスト損失が提案されています。
広範な実験に基づいて、\textit{ProTA} は MSR-VTT (50.9%)、LSMDC (25.8%)、および DiDeMo (47.2%) で大幅な改善を達成しました。

要約(オリジナル)

Text-video retrieval aims to find the most relevant cross-modal samples for a given query. Recent methods focus on modeling the whole spatial-temporal relations. However, since video clips contain more diverse content than captions, the model aligning these asymmetric video-text pairs has a high risk of retrieving many false positive results. In this paper, we propose Probabilistic Token Aggregation (\textit{ProTA}) to handle cross-modal interaction with content asymmetry. Specifically, we propose dual partial-related aggregation to disentangle and re-aggregate token representations in both low-dimension and high-dimension spaces. We propose token-based probabilistic alignment to generate token-level probabilistic representation and maintain the feature representation diversity. In addition, an adaptive contrastive loss is proposed to learn compact cross-modal distribution space. Based on extensive experiments, \textit{ProTA} achieves significant improvements on MSR-VTT (50.9%), LSMDC (25.8%), and DiDeMo (47.2%).

arxiv情報

著者 Han Fang,Xianghao Zang,Chao Ban,Zerun Feng,Lanxiang Zhou,Zhongjiang He,Yongxiang Li,Hao Sun
発行日 2024-04-18 14:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク