ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering

要約

チャートの質問応答 (ChartQA) タスクは、視覚化チャートを解釈して洞察を抽出する際に重要な役割を果たします。
GPT-4o のようなマルチモーダル大規模言語モデル (MLLM) の最近の進歩は、チャートのキャプションなどの高レベルの ChartQA タスクでは有望であることが示されていますが、低レベルの ChartQA タスク (相関関係の特定など) におけるその有効性は依然として十分に解明されていません。
このペーパーでは、新しく厳選されたデータセット ChartInsights を使用して、低レベルの ChartQA で MLLM を評価することで、このギャップに対処します。このデータセットは、7 つのチャートタイプにわたる 10 のデータ分析タスクをカバーする 22,347 (チャート、タスク、クエリ、回答) で構成されます。
私たちは、12 のオープンソースモデルと 7 つのクローズドソースモデルを含む、19 の高度な MLLM を体系的に評価します。
これらのモデル全体の平均精度率は 39.8% で、GPT-4o は 69.17% という最高精度を達成しています。
低レベルの ChartQA における MLLM の制限をさらに調査するために、チャートの視覚要素を変更する実験 (配色の変更、画像ノイズの追加など) を実施し、タスクの有効性に対する影響を評価します。
さらに、低レベルの ChartQA タスクに合わせた新しいテキストプロンプト戦略である Chain-of-Charts を提案します。これにより、パフォーマンスが 14.41% 向上し、83.58% の精度が達成されます。
最後に、関連する視覚要素に注意を向ける視覚的なプロンプト戦略を組み込むと、精度がさらに 84.32% に向上します。

要約(オリジナル)

Chart question answering (ChartQA) tasks play a critical role in interpreting and extracting insights from visualization charts. While recent advancements in multimodal large language models (MLLMs) like GPT-4o have shown promise in high-level ChartQA tasks, such as chart captioning, their effectiveness in low-level ChartQA tasks (e.g., identifying correlations) remains underexplored. In this paper, we address this gap by evaluating MLLMs on low-level ChartQA using a newly curated dataset, ChartInsights, which consists of 22,347 (chart, task, query, answer) covering 10 data analysis tasks across 7 chart types. We systematically evaluate 19 advanced MLLMs, including 12 open-source and 7 closed-source models. The average accuracy rate across these models is 39.8%, with GPT-4o achieving the highest accuracy at 69.17%. To further explore the limitations of MLLMs in low-level ChartQA, we conduct experiments that alter visual elements of charts (e.g., changing color schemes, adding image noise) to assess their impact on the task effectiveness. Furthermore, we propose a new textual prompt strategy, Chain-of-Charts, tailored for low-level ChartQA tasks, which boosts performance by 14.41%, achieving an accuracy of 83.58%. Finally, incorporating a visual prompt strategy that directs attention to relevant visual elements further improves accuracy to 84.32%.

arxiv情報

著者	Yifan Wu,Lutao Yan,Leixian Shen,Yunhai Wang,Nan Tang,Yuyu Luo
発行日	2024-11-06 13:56:28+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー