Parrot: Multilingual Visual Instruction Tuning

要約

GPT-4V のようなマルチモーダル大規模言語モデル (MLLM) の急速な開発は、汎用人工知能への重要な一歩を示しています。
既存の手法は主に、教師あり微調整 (SFT) を通じてビジョン エンコーダを LLM と調整して、LLM にマルチモーダルな能力を与えることに焦点を当てており、MLLM が本来持つ複数の言語に反応する能力は、トレーニング プロセスが進化するにつれて徐々に低下していきます。
私たちは、主に英語中心の画像とテキストのペアで構成されている不均衡な SFT データセットが、英語以外の言語でのパフォーマンスの大幅な低下につながることを経験的に発見しました。
これは、SFT プロセス中にビジョン エンコーダと LLM を多言語トークンと調整できないことが原因です。
このペーパーでは、テキスト ガイダンスを利用して言語レベルで視覚的なトークンの位置合わせを推進する新しい方法である Parrot を紹介します。
Parrot は、ビジュアル トークンを多様な言語入力に条件付けし、専門家混合 (MoE) を使用して多言語トークンの調整を促進します。
具体的には、英語以外のビジュアル トークンの調整を強化するために、初期のビジュアル特徴とテキストの埋め込みを使用してクロス アテンションを計算し、その結果が MoE ルーターに供給されて、最も関連性の高い専門家が選択されます。
その後、選ばれた専門家が最初のビジュアル トークンを言語固有のビジュアル トークンに変換します。
さらに、この分野における多言語能力を評価するためのベンチマークが現在不足していることを考慮して、MMMB と名付けられた、6 つの言語、15 のカテゴリ、12,000 の質問を含む大規模な多言語マルチモーダル ベンチマークを収集し、利用できるようにしています。
私たちの手法は、多言語 MMBench および MMMB で最先端のパフォーマンスを実証するだけでなく、幅広いマルチモーダル タスクにわたって優れています。
Parrot のソース コードとトレーニング データセットは両方とも公開されます。

要約(オリジナル)

The rapid development of Multimodal Large Language Models (MLLMs) like GPT-4V has marked a significant step towards artificial general intelligence. Existing methods mainly focus on aligning vision encoders with LLMs through supervised fine-tuning (SFT) to endow LLMs with multimodal abilities, making MLLMs’ inherent ability to react to multiple languages progressively deteriorate as the training process evolves. We empirically find that the imbalanced SFT datasets, primarily composed of English-centric image-text pairs, lead to significantly reduced performance in non-English languages. This is due to the failure of aligning the vision encoder and LLM with multilingual tokens during the SFT process. In this paper, we introduce Parrot, a novel method that utilizes textual guidance to drive visual token alignment at the language level. Parrot makes the visual tokens condition on diverse language inputs and uses Mixture-of-Experts (MoE) to promote the alignment of multilingual tokens. Specifically, to enhance non-English visual tokens alignment, we compute the cross-attention using the initial visual features and textual embeddings, the result of which is then fed into the MoE router to select the most relevant experts. The selected experts subsequently convert the initial visual tokens into language-specific visual tokens. Moreover, considering the current lack of benchmarks for evaluating multilingual capabilities within the field, we collect and make available a Massive Multilingual Multimodal Benchmark which includes 6 languages, 15 categories, and 12,000 questions, named as MMMB. Our method not only demonstrates state-of-the-art performance on multilingual MMBench and MMMB, but also excels across a broad range of multimodal tasks. Both the source code and the training dataset of Parrot will be made publicly available.

arxiv情報

著者 Hai-Long Sun,Da-Wei Zhou,Yang Li,Shiyin Lu,Chao Yi,Qing-Guo Chen,Zhao Xu,Weihua Luo,Kaifu Zhang,De-Chuan Zhan,Han-Jia Ye
発行日 2024-06-04 17:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク