Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

要約

これまでの大規模ビジョン言語モデル (LVLM) のほとんどは、主に英語データでトレーニングされているため、英語以外の入力を理解するのに苦労し、目的のターゲット言語で出力を生成できません。
既存の取り組みでは、多言語トレーニング データを追加することでこれらの問題を軽減していますが、それはほとんど場当たり的な方法で行われており、異なるトレーニングの組み合わせが異なる言語グループのスケールをどのように変化させるかについての洞察が不足しています。
この研究では、大規模な多言語 LVLM のトレーニング戦略に関する包括的な調査を紹介します。
まず、13 の下流の視覚言語タスクと 43 の言語にわたる一連の多段階実験を実施し、(1) 英語のパフォーマンスを低下させることなく含めることができるトレーニング言語の数、および (2) プレ言語の最適な言語分布を体系的に検査します。
-トレーニングデータと (3) 命令チューニングデータ。
さらに、(4) 画像内の多言語テキストの理解を改善する方法を調査し、このタスクの新しいベンチマークを導入します。
驚くべきことに、私たちの分析により、(i) 最大 100 個のトレーニング言語を同時に含めることができ、(ii) わずか 25 ~ 50\% の英語以外のデータを使用して、強力な英語のパフォーマンスを維持しながら多言語のパフォーマンスを大幅に向上させることができることが明らかになりました。
さらに、(iii) 事前トレーニングおよび命令調整に英語以外の OCR データを含めることが、画像内の多言語テキストの理解を向上させるために最も重要であることがわかりました。
最後に、すべての調査結果をまとめて、100 言語の LVLM である Centurio をトレーニングし、14 のタスクと 56 の言語をカバーする評価で最先端のパフォーマンスを提供します。

要約(オリジナル)

Most Large Vision-Language Models (LVLMs) to date are trained predominantly on English data, which makes them struggle to understand non-English input and fail to generate output in the desired target language. Existing efforts mitigate these issues by adding multilingual training data, but do so in a largely ad-hoc manner, lacking insight into how different training mixes tip the scale for different groups of languages. In this work, we present a comprehensive investigation into the training strategies for massively multilingual LVLMs. First, we conduct a series of multi-stage experiments spanning 13 downstream vision-language tasks and 43 languages, systematically examining: (1) the number of training languages that can be included without degrading English performance and (2) optimal language distributions of pre-training as well as (3) instruction-tuning data. Further, we (4) investigate how to improve multilingual text-in-image understanding, and introduce a new benchmark for the task. Surprisingly, our analysis reveals that one can (i) include as many as 100 training languages simultaneously (ii) with as little as 25-50\% of non-English data, to greatly improve multilingual performance while retaining strong English performance. We further find that (iii) including non-English OCR data in pre-training and instruction-tuning is paramount for improving multilingual text-in-image understanding. Finally, we put all our findings together and train Centurio, a 100-language LVLM, offering state-of-the-art performance in an evaluation covering 14 tasks and 56 languages.

arxiv情報

著者 Gregor Geigle,Florian Schneider,Carolin Holtermann,Chris Biemann,Radu Timofte,Anne Lauscher,Goran Glavaš
発行日 2025-01-09 10:26:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク