LaT: Latent Translation with Cycle-Consistency for Video-Text Retrieval

要約

ビデオテキスト検索は、クロスモーダル表現学習問題のクラスであり、その目標は、特定のテキスト クエリと候補ビデオのプールの間でテキスト クエリに対応するビデオを選択することです。
視覚と言語の事前トレーニングの対照的なパラダイムは、大規模なデータセットと統合されたトランスフォーマー アーキテクチャで有望な成功を収め、共同潜在空間の力を実証しました。
それにもかかわらず、視覚ドメインとテキストドメインの間の本質的な相違はまだ解消されておらず、異なるモダリティを共同潜在空間に投影すると、単一のモダリティ内の情報が歪む可能性があります。
上記の問題を克服するために、結合潜在空間を必要とせずに、ソース モダリティ空間 $\mathcal{S}$ からターゲット モダリティ空間 $\mathcal{T}$ への翻訳関係を学習するための新しいメカニズムを提示します。
ビジュアル ドメインとテキスト ドメインの間のギャップを埋めます。
さらに、変換間のサイクルの一貫性を維持するために、$\mathcal{S}$ から予測ターゲット空間 $\mathcal{T’}$ への順方向変換と、$\mathcal{T’ からの逆方向変換の両方を含むサイクル ロスを採用します。
}$ を $\mathcal{S}$ に戻します。
MSR-VTT、MSVD、および DiDeMo データセットに対して実施された広範な実験は、バニラの最先端の方法と比較して、LaT アプローチの優位性と有効性を示しています。

要約(オリジナル)

Video-text retrieval is a class of cross-modal representation learning problems, where the goal is to select the video which corresponds to the text query between a given text query and a pool of candidate videos. The contrastive paradigm of vision-language pretraining has shown promising success with large-scale datasets and unified transformer architecture, and demonstrated the power of a joint latent space. Despite this, the intrinsic divergence between the visual domain and textual domain is still far from being eliminated, and projecting different modalities into a joint latent space might result in the distorting of the information inside the single modality. To overcome the above issue, we present a novel mechanism for learning the translation relationship from a source modality space $\mathcal{S}$ to a target modality space $\mathcal{T}$ without the need for a joint latent space, which bridges the gap between visual and textual domains. Furthermore, to keep cycle consistency between translations, we adopt a cycle loss involving both forward translations from $\mathcal{S}$ to the predicted target space $\mathcal{T’}$, and backward translations from $\mathcal{T’}$ back to $\mathcal{S}$. Extensive experiments conducted on MSR-VTT, MSVD, and DiDeMo datasets demonstrate the superiority and effectiveness of our LaT approach compared with vanilla state-of-the-art methods.

arxiv情報

著者 Jinbin Bai,Chunhui Liu,Feiyue Ni,Haofan Wang,Mengying Hu,Xiaofeng Guo,Lele Cheng
発行日 2023-02-13 18:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク