Improving video retrieval using multilingual knowledge transfer

要約

動画像検索は、視覚言語モデルの開発により目覚ましい発展を遂げてきた。しかし、これらのモデルをさらに改良するためには、ラベル付けされたデータを追加する必要があり、これは膨大な手作業が必要である。本論文では、多言語モデルからの知識移転を利用して動画像検索の性能を向上させるフレームワークMKTVRを提案する。まず、最先端の機械翻訳モデルを用いて、擬似的な真実の多言語ビデオテキストペアを構築する。次に、このデータを用いて、事前に学習した多言語モデルに基づき、英語と非英語のテキストクエリを共通の埋め込み空間で表現するビデオテキスト表現を学習する。提案手法をMSRVTT, MSVD, DiDeMo, Charadesの4つの英語動画像検索データセットで評価する。実験の結果,提案手法はすべてのデータセットにおいて,従来のモデルを上回る最先端の結果を達成することが示された.最後に、6つの言語を含む多言語映像検索データセットについても評価を行い、本モデルがゼロショット設定において、従来の多言語映像検索モデルを凌駕することを示す。

要約(オリジナル)

Video retrieval has seen tremendous progress with the development of vision-language models. However, further improving these models require additional labelled data which is a huge manual effort. In this paper, we propose a framework MKTVR, that utilizes knowledge transfer from a multilingual model to boost the performance of video retrieval. We first use state-of-the-art machine translation models to construct pseudo ground-truth multilingual video-text pairs. We then use this data to learn a video-text representation where English and non-English text queries are represented in a common embedding space based on pretrained multilingual models. We evaluate our proposed approach on four English video retrieval datasets such as MSRVTT, MSVD, DiDeMo and Charades. Experimental results demonstrate that our approach achieves state-of-the-art results on all datasets outperforming previous models. Finally, we also evaluate our model on a multilingual video-retrieval dataset encompassing six languages and show that our model outperforms previous multilingual video retrieval models in a zero-shot setting.

arxiv情報

著者 Avinash Madasu,Estelle Aflalo,Gabriela Ben Melech Stan,Shao-Yen Tseng,Gedas Bertasius,Vasudev Lal
発行日 2023-01-03 09:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク