要約
最近の Large Vision-Language Model (LVLM) は、グラフ、表、ドキュメントからのテキストが豊富な画像に対する有望な推論機能を示しています。
ただし、そのような画像内のテキストが豊富であるため、言語に対するモデルの感度が高くなる可能性があります。
このため、画像内の言語が指示の言語と異なる、言語をまたがるテキストが豊富なビジュアル入力に対する LVLM のパフォーマンスを評価する必要性が生じます。
これに対処するために、LVLM が画像テキストと質問の間の言語の不一致をどのように処理するかを評価するために設計されたベンチマークである XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) を導入します。
XT-VQA は、5 つの既存のテキストリッチな VQA データセットと新しく収集されたデータセット XPaperQA を統合し、言語の不一致にもかかわらず視覚情報の忠実な認識と理解を必要とする多様なシナリオをカバーします。
XT-VQA 上の顕著な LVLM を評価したところ、多言語機能を備えたモデルであっても、言語をまたぐシナリオではパフォーマンスが大幅に低下することが明らかになりました。
相互情報分析によると、このパフォーマンスギャップは、言語を超えた質問が関連する視覚情報を適切に活性化できないことに起因していることが示唆されています。
この問題を軽減するために、モデルの出力と視覚情報の間の相互情報を最大化することによってビジュアルテキストと言語間の相互調整が構築される MVCL-MI (視覚言語間の相互情報の最大化) を提案します。
これは、単言語出力ロジットが教師として機能する、KL 発散最小化を通じて、単言語設定から複数言語設定へ知識を蒸留することによって達成されます。
XT-VQA に関する実験結果は、MVCL-MI が LVLM の固有の機能を維持しながら、ビジュアルテキストと言語間のパフォーマンス格差を効果的に削減し、LVLM を改善するための潜在的な実践に新たな光を当てていることを実証しています。
コードは https://github.com/Stardust-y/XTVQA.git で入手できます。
要約(オリジナル)
Recent Large Vision-Language Models (LVLMs) have shown promising reasoning capabilities on text-rich images from charts, tables, and documents. However, the abundant text within such images may increase the model’s sensitivity to language. This raises the need to evaluate LVLM performance on cross-lingual text-rich visual inputs, where the language in the image differs from the language of the instructions. To address this, we introduce XT-VQA (Cross-Lingual Text-Rich Visual Question Answering), a benchmark designed to assess how LVLMs handle language inconsistency between image text and questions. XT-VQA integrates five existing text-rich VQA datasets and a newly collected dataset, XPaperQA, covering diverse scenarios that require faithful recognition and comprehension of visual information despite language inconsistency. Our evaluation of prominent LVLMs on XT-VQA reveals a significant drop in performance for cross-lingual scenarios, even for models with multilingual capabilities. A mutual information analysis suggests that this performance gap stems from cross-lingual questions failing to adequately activate relevant visual information. To mitigate this issue, we propose MVCL-MI (Maximization of Vision-Language Cross-Lingual Mutual Information), where a visual-text cross-lingual alignment is built by maximizing mutual information between the model’s outputs and visual information. This is achieved by distilling knowledge from monolingual to cross-lingual settings through KL divergence minimization, where monolingual output logits serve as a teacher. Experimental results on the XT-VQA demonstrate that MVCL-MI effectively reduces the visual-text cross-lingual performance disparity while preserving the inherent capabilities of LVLMs, shedding new light on the potential practice for improving LVLMs. Codes are available at: https://github.com/Stardust-y/XTVQA.git
arxiv情報
著者 | Xinmiao Yu,Xiaocheng Feng,Yun Li,Minghui Liao,Ya-Qi Yu,Xiachong Feng,Weihong Zhong,Ruihan Chen,Mengkang Hu,Jihao Wu,Dandan Tu,Duyu Tang,Bing Qin |
発行日 | 2024-12-23 18:48:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google