CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

要約

科学論文や財務レポートの分析など、現実世界のタスクにマルチモーダル大規模言語モデル (MLLM) を適用する場合、チャートの理解が極めて重要な役割を果たします。
ただし、既存のデータセットは、テンプレートベースの質問を含む過度に単純化された均質なグラフに焦点を当てていることが多く、進捗状況の測定が過度に楽観的になってしまいます。
これらのベンチマークでは、オープンソース モデルが強力な独自モデルよりもパフォーマンスが優れているように見えますが、わずかに異なるチャートや質問を使用した単純なストレス テストでは、パフォーマンスが最大 34.5% 低下する可能性があることを示しています。
この研究では、arXiv 論文からの 2,323 の自然で挑戦的で多様なチャートを含む包括的な評価スイートである CharXiv を提案します。
CharXiv には 2 種類の質問が含まれています。1) 基本的なチャート要素の調査に関する記述的な質問、2) チャート内の複雑な視覚要素全体の情報を総合する必要がある推論的な質問です。
品質を保証するために、すべてのチャートと質問は人間の専門家によって厳選され、厳選され、検証されています。
私たちの結果は、47.1% の精度を達成する最強の独自モデル (つまり GPT-4o) の推論スキルと、最も強力なオープンソース モデル (つまり、InternVL Chat V1.5) の推論スキルの間に、これまで過小評価されていた大きなギャップがあることを明らかにしました。
29.2%を達成しています。
すべてのモデルは人間のパフォーマンスの 80.5% よりもはるかに遅れており、既存の MLLM のチャート理解能力の弱点を浮き彫りにしています。
私たちは、CharXiv がより現実的で忠実な進捗状況の尺度を提供することで、MLLM チャートの理解に関する今後の研究を促進することを願っています。
プロジェクトページとリーダーボード: https://charxiv.github.io/

要約(オリジナル)

Chart understanding plays a pivotal role when applying Multimodal Large Language Models (MLLMs) to real-world tasks such as analyzing scientific papers or financial reports. However, existing datasets often focus on oversimplified and homogeneous charts with template-based questions, leading to an over-optimistic measure of progress. We demonstrate that although open-source models can appear to outperform strong proprietary models on these benchmarks, a simple stress test with slightly different charts or questions can deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a comprehensive evaluation suite involving 2,323 natural, challenging, and diverse charts from arXiv papers. CharXiv includes two types of questions: 1) descriptive questions about examining basic chart elements and 2) reasoning questions that require synthesizing information across complex visual elements in the chart. To ensure quality, all charts and questions are handpicked, curated, and verified by human experts. Our results reveal a substantial, previously underestimated gap between the reasoning skills of the strongest proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%. All models lag far behind human performance of 80.5%, underscoring weaknesses in the chart understanding capabilities of existing MLLMs. We hope CharXiv facilitates future research on MLLM chart understanding by providing a more realistic and faithful measure of progress. Project page and leaderboard: https://charxiv.github.io/

arxiv情報

著者 Zirui Wang,Mengzhou Xia,Luxi He,Howard Chen,Yitao Liu,Richard Zhu,Kaiqu Liang,Xindi Wu,Haotian Liu,Sadhika Malladi,Alexis Chevalier,Sanjeev Arora,Danqi Chen
発行日 2024-06-26 17:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク