要約
最近、多くの汎用性の高いマルチモーダル大手言語モデル(MLLM)が継続的に登場しています。
ただし、視覚チャートに描かれ、照会されたコンテンツに基づいて推論に従事する情報をクエリする能力は、未調査のままです。
この論文では、チャートドメイン内の既製のMLLMの能力を包括的かつ厳密にベンチマークするために、18のチャートタイプ、7つのチャートタスク、22の懲戒トピック、および高品質のチャートデータをカバーするマルチモーダル評価セットであるChartxを構築します。
その上、ChartVLMを開発して、チャートの分野や幾何学的画像の推論タスクなど、解釈可能なパターンに強く依存するマルチモーダルタスクの処理に関する新しい視点を提供します。
提案されたChartx評価セットで、主流のMLLMとchartVLMのチャート関連能力を評価します。
広範な実験は、ChartVLMが汎用性とチャート関連の大型モデルの両方を上回り、GPT-4Vに匹敵する結果を達成することを示しています。
私たちの研究は、より包括的なチャート評価セットを作成し、より解釈可能なマルチモーダルモデルを開発する際のさらなる調査への道を開くことができると考えています。
Chartxとchartvlmの両方が、https://github.com/alpha-innovator/chartvlmで入手できます
要約(オリジナル)
Recently, many versatile Multi-modal Large Language Models (MLLMs) have emerged continuously. However, their capacity to query information depicted in visual charts and engage in reasoning based on the queried contents remains under-explored. In this paper, to comprehensively and rigorously benchmark the ability of the off-the-shelf MLLMs in the chart domain, we construct ChartX, a multi-modal evaluation set covering 18 chart types, 7 chart tasks, 22 disciplinary topics, and high-quality chart data. Besides, we develop ChartVLM to offer a new perspective on handling multi-modal tasks that strongly depend on interpretable patterns, such as reasoning tasks in the field of charts or geometric images. We evaluate the chart-related ability of mainstream MLLMs and our ChartVLM on the proposed ChartX evaluation set. Extensive experiments demonstrate that ChartVLM surpasses both versatile and chart-related large models, achieving results comparable to GPT-4V. We believe that our study can pave the way for further exploration in creating a more comprehensive chart evaluation set and developing more interpretable multi-modal models. Both ChartX and ChartVLM are available at: https://github.com/Alpha-Innovator/ChartVLM
arxiv情報
著者 | Renqiu Xia,Bo Zhang,Hancheng Ye,Xiangchao Yan,Qi Liu,Hongbin Zhou,Zijun Chen,Peng Ye,Min Dou,Botian Shi,Junchi Yan,Yu Qiao |
発行日 | 2025-03-05 13:41:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google