M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval

要約

私たちは、M2-RAAP と呼ばれる、効果的かつ効率的なゼロショット ビデオテキスト検索に向けた適応ベースの事前トレーニングを推進するためのマルチモーダル レシピを紹介します。
CLIP のような一般的な画像テキスト モデルでは、現在のほとんどの適応ベースのビデオテキスト事前トレーニング方法は、ノイズの多いデータ コーパス、時間のかかる事前トレーニング、限られたパフォーマンス向上という 3 つの大きな問題に直面しています。
この目的に向けて、ビデオテキストの事前トレーニングにおける 4 つの重要なステップを含む包括的な調査を実施します。
具体的には、1) データのフィルタリングと改良、2) ビデオ入力タイプの選択、3) 時間モデリング、4) ビデオ機能の強化を調査します。
次に、この実証研究を M2-RAAP レシピに要約します。そこでの私たちの技術的貢献は、1) データ フィルタリングとテキスト書き換えパイプラインにより 100 万の高品質バイリンガル ビデオとテキストのペアが生成され、2) ビデオ入力を次のようなものに置き換えることにあります。
事前トレーニングを加速するためのキーフレーム、および 3) ビデオ機能を強化するための補助キャプションガイド (ACG) 戦略。
私たちは、異なる言語からの 2 つの洗練されたビデオ テキスト データセットに 3 つの画像テキスト基礎モデルを適応させることで広範な実験を実施し、適応ベースの事前トレーニングに対する M2-RAAP の堅牢性と再現性を検証します。
結果は、M2-RAAP が大幅に削減されたデータ (-90%) と時間消費 (-95%) で優れたパフォーマンスをもたらし、4 つの英国のゼロショット検索データセットと 2 つの中国のゼロショット検索データセットで新しい SOTA を確立したことを示しています。
私たちは洗練されたバイリンガル データ アノテーションとコードベースを準備中です。これらは https://github.com/alipay/Ant-Multi-Modal-Framework/tree/main/prj/M2_RAAP で利用可能になります。

要約(オリジナル)

We present a Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards effective and efficient zero-shot video-text retrieval, dubbed M2-RAAP. Upon popular image-text models like CLIP, most current adaptation-based video-text pre-training methods are confronted by three major issues, i.e., noisy data corpus, time-consuming pre-training, and limited performance gain. Towards this end, we conduct a comprehensive study including four critical steps in video-text pre-training. Specifically, we investigate 1) data filtering and refinement, 2) video input type selection, 3) temporal modeling, and 4) video feature enhancement. We then summarize this empirical study into the M2-RAAP recipe, where our technical contributions lie in 1) the data filtering and text re-writing pipeline resulting in 1M high-quality bilingual video-text pairs, 2) the replacement of video inputs with key-frames to accelerate pre-training, and 3) the Auxiliary-Caption-Guided (ACG) strategy to enhance video features. We conduct extensive experiments by adapting three image-text foundation models on two refined video-text datasets from different languages, validating the robustness and reproducibility of M2-RAAP for adaptation-based pre-training. Results demonstrate that M2-RAAP yields superior performance with significantly reduced data (-90%) and time consumption (-95%), establishing a new SOTA on four English zero-shot retrieval datasets and two Chinese ones. We are preparing our refined bilingual data annotations and codebase, which will be available at https://github.com/alipay/Ant-Multi-Modal-Framework/tree/main/prj/M2_RAAP.

arxiv情報

著者 Xingning Dong,Zipeng Feng,Chunluan Zhou,Xuzheng Yu,Ming Yang,Qingpei Guo
発行日 2024-01-31 12:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク