MuMUR : Multilingual Multimodal Universal Retrieval

要約

マルチモーダル検索は、視覚言語モデルの開発により大幅な進歩を遂げました。
ただし、これらのモデルをさらに改善するには、ラベル付きデータを追加する必要があり、手作業での多大な労力が必要になります。
この論文では、多言語モデルからの知識伝達を利用してマルチモーダル (画像とビデオ) 検索のパフォーマンスを向上させるフレームワーク MuMUR を提案します。
まず、最先端の機械翻訳モデルを使用して、疑似グラウンドトゥルース多言語ビジュアルテキストペアを構築します。
次に、このデータを使用して、英語と英語以外のテキスト クエリが事前トレーニング済みの多言語モデルに基づいた共通の埋め込み空間で表現される共同ビジョン テキスト表現を学習します。
我々は、MSRVTT、MSVD、DiDeMo、Charades、MSRVTT 多言語などの 5 つのビデオ検索データセット、Flickr30k や Multi30k などの 2 つの画像検索データセットなど、多様な検索データセットで提案したアプローチを評価します。
実験結果は、私たちのアプローチがすべてのビデオ検索データセットで以前のモデルを上回る最先端の結果を達成することを示しています。
さらに、当社のフレームワーク MuMUR は、他の多言語ビデオ検索データセットを大幅に上回っています。
また、MuMUR が画像検索において優れたパフォーマンスを発揮することも観察されています。
これは、すべてのビジュアル入力 (画像とビデオ) およびテキスト入力 (単言語と多言語) にわたって検索を実行する MuMUR の汎用的な機能を示しています。

要約(オリジナル)

Multi-modal retrieval has seen tremendous progress with the development of vision-language models. However, further improving these models require additional labelled data which is a huge manual effort. In this paper, we propose a framework MuMUR, that utilizes knowledge transfer from a multilingual model to boost the performance of multi-modal (image and video) retrieval. We first use state-of-the-art machine translation models to construct pseudo ground-truth multilingual visual-text pairs. We then use this data to learn a joint vision-text representation where English and non-English text queries are represented in a common embedding space based on pretrained multilingual models. We evaluate our proposed approach on a diverse set of retrieval datasets: five video retrieval datasets such as MSRVTT, MSVD, DiDeMo, Charades and MSRVTT multilingual, two image retrieval datasets such as Flickr30k and Multi30k . Experimental results demonstrate that our approach achieves state-of-the-art results on all video retrieval datasets outperforming previous models. Additionally, our framework MuMUR significantly beats other multilingual video retrieval dataset. We also observe that MuMUR exhibits strong performance on image retrieval. This demonstrates the universal ability of MuMUR to perform retrieval across all visual inputs (image and video) and text inputs (monolingual and multilingual).

arxiv情報

著者 Avinash Madasu,Estelle Aflalo,Gabriela Ben Melech Stan,Shachar Rosenman,Shao-Yen Tseng,Gedas Bertasius,Vasudev Lal
発行日 2023-09-18 15:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク