ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

要約

チャート理解は、洗練されたテキストと視覚の推論機能の統合が必要なため、大規模なビジョン言語モデル(LVLMS)にとってユニークな課題です。
ただし、現在のLVLMは、これらのスキルの間に顕著な不均衡を示し、テキストで実行するのが難しい視覚的推論に不足しています。
視覚的推論を通じてのみ解決可能な合成データセットを使用してケーススタディを実施し、モデルのパフォーマンスが視覚的な複雑さの増加とともに大幅に低下しますが、人間のパフォーマンスは堅牢なままです。
次に、複雑な視覚およびテキストの推論を評価するために特別に構築された、実際の世界チャートからキュレーションされた複数の推論タイプに及ぶ1,162の専門家と発音の質問を含む新しいチャート質問(QA)ベンチマークであるChartmuseumを紹介します。
フロンティアモデルが同様に飽和し、飽和に近い場合の以前のチャート理解ベンチマークとは異なり、私たちのベンチマークはモデルと人間のパフォーマンスの間に実質的なギャップを暴露しますが、モデル機能を効果的に区別します。人間は93%の精度を達成しますが、Gemini-2.5-Proは63.0%しか獲得していません。
38.5%。
さらに、主に視覚的な推論を必要とする質問では、すべてのモデルがテキストの季節が多い質問パフォーマンスから35%〜55%のパフォーマンスが低下します。
最後に、定性的エラー分析では、現在のLVLMに挑戦する視覚的推論の特定のカテゴリが明らかになります。

要約(オリジナル)

Chart understanding presents a unique challenge for large vision-language models (LVLMs), as it requires the integration of sophisticated textual and visual reasoning capabilities. However, current LVLMs exhibit a notable imbalance between these skills, falling short on visual reasoning that is difficult to perform in text. We conduct a case study using a synthetic dataset solvable only through visual reasoning and show that model performance degrades significantly with increasing visual complexity, while human performance remains robust. We then introduce ChartMuseum, a new Chart Question Answering (QA) benchmark containing 1,162 expert-annotated questions spanning multiple reasoning types, curated from real-world charts across 184 sources, specifically built to evaluate complex visual and textual reasoning. Unlike prior chart understanding benchmarks — where frontier models perform similarly and near saturation — our benchmark exposes a substantial gap between model and human performance, while effectively differentiating model capabilities: although humans achieve 93% accuracy, the best-performing model Gemini-2.5-Pro attains only 63.0%, and the leading open-source LVLM Qwen2.5-VL-72B-Instruct achieves only 38.5%. Moreover, on questions requiring primarily visual reasoning, all models experience a 35%-55% performance drop from text-reasoning-heavy question performance. Lastly, our qualitative error analysis reveals specific categories of visual reasoning that are challenging for current LVLMs.

arxiv情報

著者 Liyan Tang,Grace Kim,Xinyu Zhao,Thom Lake,Wenxuan Ding,Fangcong Yin,Prasann Singhal,Manya Wadhwa,Zeyu Leo Liu,Zayne Sprague,Ramya Namuduri,Bodun Hu,Juan Diego Rodriguez,Puyuan Peng,Greg Durrett
発行日 2025-05-19 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク