Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning

要約

新しいマルチモーダル大規模言語モデル (MLLM) は、チャート質問応答 (CQA) に大きな可能性を示しています。
最近の取り組みは主に、データ収集と合成を通じてトレーニング データセット (チャート、データ テーブル、質問と回答 (QA) のペア) をスケールアップすることに焦点を当てています。
しかし、既存の MLLM と CQA データセットに関する実証研究では、顕著なギャップが明らかになりました。
まず、現在のデータ収集と合成はデータ量に焦点を当てており、きめ細かいビジュアル エンコーディングと QA タスクが考慮されていないため、実際の CQA シナリオから乖離した不均衡なデータ分布が生じています。
第 2 に、既存の研究は、当初は自然画像用に設計されたベース MLLM のトレーニング レシピに従っており、リッチ テキスト要素などのグラフの固有の特性への適応については十分に検討されていません。
ギャップを埋めるために、トレーニング データセットの強化とモデル開発をガイドする、視覚化を参照した命令調整アプローチを提案します。
具体的には、既存のデータセットから多様で高品質なデータを効果的にフィルタリングし、その後、LLM ベースの生成技術を使用してデータを精製および拡張して、実際の QA タスクやビジュアル エンコーディングとより適切に整合させるための新しいデータ エンジンを提案します。
次に、チャートの特性への適応を容易にするために、ビジョン エンコーダーをフリーズ解除し、解像度の混合適応戦略を組み込んで詳細な認識を強化することで、強化されたデータを利用して MLLM をトレーニングします。
実験結果により、私たちのアプローチの有効性が検証されました。
トレーニング例が少なくても、当社のモデルは確立されたベンチマークで常に最先端の CQA モデルを上回っています。
また、将来の研究のベンチマークとしてデータセットの分割にも貢献します。
この論文のソース コードとデータセットは、https://github.com/zengxingchen/ChartQA-MLLM で入手できます。

要約(オリジナル)

Emerging multimodal large language models (MLLMs) exhibit great potential for chart question answering (CQA). Recent efforts primarily focus on scaling up training datasets (i.e., charts, data tables, and question-answer (QA) pairs) through data collection and synthesis. However, our empirical study on existing MLLMs and CQA datasets reveals notable gaps. First, current data collection and synthesis focus on data volume and lack consideration of fine-grained visual encodings and QA tasks, resulting in unbalanced data distribution divergent from practical CQA scenarios. Second, existing work follows the training recipe of the base MLLMs initially designed for natural images, under-exploring the adaptation to unique chart characteristics, such as rich text elements. To fill the gap, we propose a visualization-referenced instruction tuning approach to guide the training dataset enhancement and model development. Specifically, we propose a novel data engine to effectively filter diverse and high-quality data from existing datasets and subsequently refine and augment the data using LLM-based generation techniques to better align with practical QA tasks and visual encodings. Then, to facilitate the adaptation to chart characteristics, we utilize the enriched data to train an MLLM by unfreezing the vision encoder and incorporating a mixture-of-resolution adaptation strategy for enhanced fine-grained recognition. Experimental results validate the effectiveness of our approach. Even with fewer training examples, our model consistently outperforms state-of-the-art CQA models on established benchmarks. We also contribute a dataset split as a benchmark for future research. Source codes and datasets of this paper are available at https://github.com/zengxingchen/ChartQA-MLLM.

arxiv情報

著者 Xingchen Zeng,Haichuan Lin,Yilin Ye,Wei Zeng
発行日 2024-07-29 17:04:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク