Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages

要約

最近、画像からテキスト、テキストから画像の生成という点で、マルチモーダル学習が急増している。しかし、その成功は一般的に英語に限られており、他の言語は大きく取り残されている。英語以外のマルチモーダルデータは低リソースである(すなわち、大規模で高品質な画像-テキストデータがない)ため、他の言語で競争力のある対応言語を構築することは非常に困難である。本研究では、非英語言語における大規模なマルチモーダルモデルを学習するための効果的な学習パラダイムであるMPMを提案する。MPMは、多言語言語モデルが、言語間のゼロショットマルチモーダル学習をピボットできることを実証する。具体的には、強力な多言語大規模言語モデルに基づき、英語のみの画像テキストデータで事前訓練されたマルチモーダルモデルは、母国語の画像テキストデータで訓練されたモデルをも凌駕し、(準)ゼロショットで他の言語にうまく汎化できる。中国語をMPMの実践例とし、画像からテキスト、テキストから画像の生成における大規模なマルチモーダルモデルVisCPMを構築し、中国語において(オープンソースで)最先端の性能を達成する。将来の研究を容易にするため、コードとモデルの重みを https://github.com/OpenBMB/VisCPM.git でオープンソース化する。

要約(オリジナル)

Recently there has been a significant surge in multimodal learning in terms of both image-to-text and text-to-image generation. However, the success is typically limited to English, leaving other languages largely behind. Building a competitive counterpart in other languages is highly challenging due to the low-resource nature of non-English multimodal data (i.e., lack of large-scale, high-quality image-text data). In this work, we propose MPM, an effective training paradigm for training large multimodal models in non-English languages. MPM demonstrates that Multilingual language models can Pivot zero-shot Multimodal learning across languages. Specifically, based on a strong multilingual large language model, multimodal models pretrained on English-only image-text data can well generalize to other languages in a (quasi)-zero-shot manner, even surpassing models trained on image-text data in native languages. Taking Chinese as a practice of MPM, we build large multimodal models VisCPM in image-to-text and text-to-image generation, which achieve state-of-the-art (open-source) performance in Chinese. To facilitate future research, we open-source codes and model weights at https://github.com/OpenBMB/VisCPM.git.

arxiv情報

著者 Jinyi Hu,Yuan Yao,Chongyi Wang,Shan Wang,Yinxu Pan,Qianyu Chen,Tianyu Yu,Hanghao Wu,Yue Zhao,Haoye Zhang,Xu Han,Yankai Lin,Jiao Xue,Dahai Li,Zhiyuan Liu,Maosong Sun
発行日 2024-02-05 16:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク