Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization

要約

視覚言語モデル(VLM)の急速な進歩は、マルチモーダルの理解を変えましたが、入力言語に関係なく英語の応答を生成することで制約されることがよくあります。
この現象は、画像による忠実度損失(IFL)と呼ばれ、限られたマルチモーダル多言語トレーニングデータに由来しています。
これに対処するために、視覚命令の調整中にテキストのみの多言語データを注入する継続的な多言語統合戦略を提案し、言語モデルの元の多言語機能を維持します。
広範な評価は、私たちのアプローチが視覚的パフォーマンスの分解なしに言語間の言語の忠実度を大幅に改善することを示しています。
また、言語の忠実度を向上させますが、視覚的なパフォーマンスを犠牲にするモデルの合併についても探ります。
対照的に、当社のコア方法は、トレードオフなしで堅牢な多言語アライメントを実現し、グローバルVLM採用のためのIFLを緩和するためのスケーラブルで効果的なパスを提供します。

要約(オリジナル)

Rapid advancements in Visual Language Models (VLMs) have transformed multimodal understanding but are often constrained by generating English responses regardless of the input language. This phenomenon has been termed as Image-induced Fidelity Loss (IFL) and stems from limited multimodal multilingual training data. To address this, we propose a continuous multilingual integration strategy that injects text-only multilingual data during visual instruction tuning, preserving the language model’s original multilingual capabilities. Extensive evaluations demonstrate that our approach significantly improves linguistic fidelity across languages without degradation in visual performance. We also explore model merging, which improves language fidelity but comes at the cost of visual performance. In contrast, our core method achieves robust multilingual alignment without trade-offs, offering a scalable and effective path to mitigating IFL for global VLM adoption.

arxiv情報

著者 Iñigo Pikabea,Iñaki Lacunza,Oriol Pareras,Carlos Escolano,Aitor Gonzalez-Agirre,Javier Hernando,Marta Villegas
発行日 2025-03-28 16:26:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク