要約
視覚言語事前トレーニング (VLP) は、画像テキスト検索、視覚的含意、視覚的推論など、多くの視覚言語タスクのパフォーマンスを向上させました。
事前トレーニングでは主に英語の語彙データベースと画像クエリを使用します。
これまでの研究では、英語での事前トレーニングがゼロショット設定では他の言語にうまく移行できないことが実証されています。
ただし、多言語の事前トレーニング済み言語モデル (MPLM) は、さまざまなシングルモーダル言語タスクに優れています。
この論文では、MPLM を使用して VLP を未知の言語に適応させる、シンプルかつ効率的なアプローチを提案します。
英語以外の言語のテキスト エンコーダーをトレーニングするために、言語を越えたコンテキスト化されたトークン埋め込みアラインメント アプローチを利用します。
私たちのアプローチは画像入力を必要とせず、主に機械翻訳を使用するため、ターゲット言語データは必要ありません。
3 つの異なるタスク (画像テキスト検索、視覚含意、自然言語視覚推論) にわたる評価では、このアプローチが大規模な並列コーパスを必要とせずに、最先端の多言語視覚言語モデルよりも優れていることが実証されました。
私たちのコードは https://github.com/Yasminekaroui/CliCoTea で入手できます。
要約(オリジナル)
Vision-Language Pre-training (VLP) has advanced the performance of many vision-language tasks, such as image-text retrieval, visual entailment, and visual reasoning. The pre-training mostly utilizes lexical databases and image queries in English. Previous work has demonstrated that the pre-training in English does not transfer well to other languages in a zero-shot setting. However, multilingual pre-trained language models (MPLM) have excelled at a variety of single-modal language tasks. In this paper, we propose a simple yet efficient approach to adapt VLP to unseen languages using MPLM. We utilize a cross-lingual contextualized token embeddings alignment approach to train text encoders for non-English languages. Our approach does not require image input and primarily uses machine translation, eliminating the need for target language data. Our evaluation across three distinct tasks (image-text retrieval, visual entailment, and natural language visual reasoning) demonstrates that this approach outperforms the state-of-the-art multilingual vision-language models without requiring large parallel corpora. Our code is available at https://github.com/Yasminekaroui/CliCoTea.
arxiv情報
著者 | Yasmine Karoui,Rémi Lebret,Negar Foroutan,Karl Aberer |
発行日 | 2023-06-29 08:20:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google