要約
マルチモーダル大規模言語モデル (MLLM) は、驚くべきマルチモーダルの理解および生成機能を実証しています。
しかし、MLLM の合成チャートに対する理解は限られており、既存のベンチマークは単純化されており、チャートは実際の例から大幅に逸脱しているため、MLLM のチャート理解能力を正確に評価することが困難になっています。
したがって、進歩を調査し、チャート データに関する現在の MLLM の限界を明らかにするには、挑戦的なベンチマークが不可欠です。
この研究では、より複雑なビジュアル ロジックを通じてチャートの理解度を検証し、MLLM の基本的なチャートの理解力とデータの信頼性を正確に測定するための包括的なチャート ベンチマークである ChartBench を紹介することを提案します。
具体的には、ChartBench は \textbf{41} カテゴリ、\textbf{2K} グラフ、および \textbf{16K} QA 注釈で構成されます。
ChartBench は、グラフの種類を大幅に拡張しながら、データ ポイントの直接ラベル付けを回避します。そのため、MLLM は、色、凡例、座標系などの要素を活用して、人間に似た値を推測する必要があります。
また、改良された指標 \textit{Acc+} も導入します。これは、MLLM のチャート理解能力を正確に反映し、労力のかかる手動評価やコストのかかる GPT ベースの評価を回避します。
私たちは \textbf{12} 主流のオープンソース モデルと \textbf{2} の優れた独自モデルの評価を実施します。
広範な実験を通じて、私たちはチャートにおける MLLM の限界を明らかにし、コミュニティに MLLM のチャート理解能力にさらに注意を払うよう促す洞察を提供します。
ベンチマークとコードは研究のために公開されます。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal understanding and generation capabilities. However, their understanding of synthetic charts is limited, while existing benchmarks are simplistic and the charts deviate significantly from real-world examples, making it challenging to accurately assess MLLMs’ chart comprehension abilities. Hence, a challenging benchmark is essential for investigating progress and uncovering the limitations of current MLLMs on chart data. In this work, we propose to examine chart comprehension through more complex visual logic and introduce ChartBench, a comprehensive chart benchmark to accurately measure MLLMs’ fundamental chart comprehension and data reliability. Specifically, ChartBench consists of \textbf{41} categories, \textbf{2K} charts, and \textbf{16K} QA annotations. While significantly expanding chart types, ChartBench avoids direct labelling of data points, which requires MLLMs to infer values akin to humans by leveraging elements like color, legends, and coordinate systems. We also introduce an improved metric, \textit{Acc+}, which accurately reflects MLLMs’ chart comprehension abilities while avoiding labor-intensive manual evaluations or costly GPT-based evaluations. We conduct evaluations on \textbf{12} mainstream open-source models and \textbf{2} outstanding proprietary models. Through extensive experiments, we reveal the limitations of MLLMs on charts and provide insights to inspire the community to pay closer attention to MLLMs’ chart comprehension abilities. The benchmark and code will be publicly available for research.
arxiv情報
著者 | Zhengzhuo Xu,Sinan Du,Yiyan Qi,Chengjin Xu,Chun Yuan,Jian Guo |
発行日 | 2023-12-26 07:20:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google