要約
【タイトル】C2KD: クロスリンガルクロスモーダル知識蒸留法による多言語テキスト-ビデオ検索
【要約】
– 多言語テキスト-ビデオ検索法は、近年大幅に改善されたが、英語以外の言語ではパフォーマンスが劣っている。
– 我々は、多言語テキスト-ビデオ検索法を改善するために、クロスリンガルクロスモーダル知識蒸留法を提案する。
– 英語のテキスト-ビデオ検索法が他の言語よりも優れているという事実に着想を得て、英語で入力されたテキストを使用する教師モデルのクロスモーダル予測にマッチさせるために、異なる言語の入力テキストを使用して学生モデルを訓練する。
– 我々は、クロスエントロピーに基づく目的関数を提案し、学生のテキスト-ビデオ類似度スコアの分布を教師モデルと同様にすることを強制する。
– 新しい多言語ビデオデータセット、Multi-YouCook2を導入し、YouCook2ビデオデータセットの英語キャプションを8つの他の言語に翻訳することで。我々の方法は、Multi-YouCook2やMulti-MSRVTT、VATEXなどの複数のデータセットで多言語テキスト-ビデオ検索のパフォーマンスを改善している。
– 我々はまた、異なる多言語テキストモデルを教師として使用する効果の分析を行った。コード、モデル、データセットはhttps://github.com/roudimit/c2kdで利用可能である。
要約(オリジナル)
Multilingual text-video retrieval methods have improved significantly in recent years, but the performance for other languages lags behind English. We propose a Cross-Lingual Cross-Modal Knowledge Distillation method to improve multilingual text-video retrieval. Inspired by the fact that English text-video retrieval outperforms other languages, we train a student model using input text in different languages to match the cross-modal predictions from teacher models using input text in English. We propose a cross entropy based objective which forces the distribution over the student’s text-video similarity scores to be similar to those of the teacher models. We introduce a new multilingual video dataset, Multi-YouCook2, by translating the English captions in the YouCook2 video dataset to 8 other languages. Our method improves multilingual text-video retrieval performance on Multi-YouCook2 and several other datasets such as Multi-MSRVTT and VATEX. We also conducted an analysis on the effectiveness of different multilingual text models as teachers. The code, models, and dataset are available at https://github.com/roudimit/c2kd.
arxiv情報
著者 | Andrew Rouditchenko,Yung-Sung Chuang,Nina Shvetsova,Samuel Thomas,Rogerio Feris,Brian Kingsbury,Leonid Karlinsky,David Harwath,Hilde Kuehne,James Glass |
発行日 | 2023-05-09 19:58:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI