C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval

要約

多言語のテキストとビデオの検索方法は近年大幅に改善されていますが、他の言語のパフォーマンスは英語に遅れをとっています。
多言語のテキスト ビデオ検索を改善するクロスリンガル クロス モーダル知識蒸留法を提案します。
英語のテキストとビデオの検索が他の言語よりも優れているという事実に着想を得て、さまざまな言語の入力テキストを使用して学生モデルをトレーニングし、英語の入力テキストを使用する教師モデルからのクロスモーダル予測と一致させます。
学生のテキストとビデオの類似性スコアの分布を教師モデルの分布と同様にするクロスエントロピーベースの目的を提案します。
YouCook2 ビデオ データセットの英語のキャプションを他の 8 つの言語に翻訳することにより、新しい多言語ビデオ データセット Multi-YouCook2 を導入します。
私たちの方法は、Multi-YouCook2 および Multi-MSRVTT や VATEX などの他のいくつかのデータセットでの多言語テキスト ビデオ検索パフォーマンスを向上させます。
また、教師としてのさまざまな多言語テキスト モデルの有効性に関する分析も実施しました。

要約(オリジナル)

Multilingual text-video retrieval methods have improved significantly in recent years, but the performance for other languages lags behind English. We propose a Cross-Lingual Cross-Modal Knowledge Distillation method to improve multilingual text-video retrieval. Inspired by the fact that English text-video retrieval outperforms other languages, we train a student model using input text in different languages to match the cross-modal predictions from teacher models using input text in English. We propose a cross entropy based objective which forces the distribution over the student’s text-video similarity scores to be similar to those of the teacher models. We introduce a new multilingual video dataset, Multi-YouCook2, by translating the English captions in the YouCook2 video dataset to 8 other languages. Our method improves multilingual text-video retrieval performance on Multi-YouCook2 and several other datasets such as Multi-MSRVTT and VATEX. We also conducted an analysis on the effectiveness of different multilingual text models as teachers.

arxiv情報

著者 Andrew Rouditchenko,Yung-Sung Chuang,Nina Shvetsova,Samuel Thomas,Rogerio Feris,Brian Kingsbury,Leonid Karlinsky,David Harwath,Hilde Kuehne,James Glass
発行日 2022-10-07 15:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク