要約
私たちは、人気のあるクラスのマルチモーダル視覚言語モデル (VLM) で発生している驚くべき多言語バイアスを明らかにしました。
LLaVA スタイル VLM へのクエリに画像を含めると、クエリの言語に関係なく、モデルが英語の応答を返す可能性が大幅に高まります。
この論文では、設計空間の広範な除去と、画像およびテキスト入力のモデルの内部表現の機構分析を組み合わせた 2 つのアプローチを使用して、この損失の原因を調査します。
どちらのアプローチも、問題が LLaVA モデルの言語モデリング コンポーネントに起因していることを示しています。
統計的には、言語バックボーンをバイリンガル言語モデルに切り替えることが、このエラーを減らすのに最も強力な効果があることがわかりました。
機構的には、視覚入力はテキスト入力と同様の空間にマッピングされず、中間の注意層に介入することでこのバイアスを軽減できるという説得力のある証拠が得られます。
私たちの調査結果は、マルチモーダル空間と多言語空間の間のクロスオーバーを理解しようとしている研究者やエンジニアに重要な洞察を提供し、非英語コンテキスト向けの有能で包括的な VLM を開発するという目標に貢献します。
要約(オリジナル)
We uncover a surprising multilingual bias occurring in a popular class of multimodal vision-language models (VLMs). Including an image in the query to a LLaVA-style VLM significantly increases the likelihood of the model returning an English response, regardless of the language of the query. This paper investigates the causes of this loss with a two-pronged approach that combines extensive ablation of the design space with a mechanistic analysis of the models’ internal representations of image and text inputs. Both approaches indicate that the issue stems in the language modelling component of the LLaVA model. Statistically, we find that switching the language backbone for a bilingual language model has the strongest effect on reducing this error. Mechanistically, we provide compelling evidence that visual inputs are not mapped to a similar space as text ones, and that intervening on intermediary attention layers can reduce this bias. Our findings provide important insights to researchers and engineers seeking to understand the crossover between multimodal and multilingual spaces, and contribute to the goal of developing capable and inclusive VLMs for non-English contexts.
arxiv情報
著者 | Musashi Hinck,Carolin Holtermann,Matthew Lyle Olson,Florian Schneider,Sungduk Yu,Anahita Bhiwandiwalla,Anne Lauscher,Shaoyen Tseng,Vasudev Lal |
発行日 | 2024-07-02 15:01:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google