要約
ビデオの検索は、視覚言語モデルの開発によって大きな進歩を遂げました。
ただし、これらのモデルをさらに改善するには、膨大な手作業である追加のラベル付きデータが必要です。
この論文では、多言語モデルからの知識伝達を利用してビデオ検索のパフォーマンスを向上させるフレームワーク MKTVR を提案します。
まず、最先端の機械翻訳モデルを使用して、疑似グラウンド トゥルースの多言語ビデオ テキスト ペアを構築します。
次に、このデータを使用して、事前トレーニング済みの多言語モデルに基づいて、英語と英語以外のテキスト クエリが共通の埋め込みスペースで表現されるビデオ テキスト表現を学習します。
MSRVTT、MSVD、DiDeMo、Charades などの 4 つの英語のビデオ検索データセットで提案されたアプローチを評価します。
実験結果は、私たちのアプローチが以前のモデルよりも優れたすべてのデータセットで最先端の結果を達成することを示しています。
最後に、6 つの言語を含む多言語ビデオ検索データセットでモデルを評価し、モデルがゼロショット設定で以前の多言語ビデオ検索モデルよりも優れていることを示します。
要約(オリジナル)
Video retrieval has seen tremendous progress with the development of vision-language models. However, further improving these models require additional labelled data which is a huge manual effort. In this paper, we propose a framework MKTVR, that utilizes knowledge transfer from a multilingual model to boost the performance of video retrieval. We first use state-of-the-art machine translation models to construct pseudo ground-truth multilingual video-text pairs. We then use this data to learn a video-text representation where English and non-English text queries are represented in a common embedding space based on pretrained multilingual models. We evaluate our proposed approach on four English video retrieval datasets such as MSRVTT, MSVD, DiDeMo and Charades. Experimental results demonstrate that our approach achieves state-of-the-art results on all datasets outperforming previous models. Finally, we also evaluate our model on a multilingual video-retrieval dataset encompassing six languages and show that our model outperforms previous multilingual video retrieval models in a zero-shot setting.
arxiv情報
著者 | Avinash Madasu,Estelle Aflalo,Gabriel Ben Melech Stan,Shao-Yen Tseng,Gedas Bertasius,Vasudev Lal |
発行日 | 2022-08-24 13:55:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google