要約
最近、多くの汎用性の高いマルチモーダル大規模言語モデル (MLLM) が継続的に登場しています。
しかし、視覚的なチャートに描かれた情報をクエリし、クエリされた内容に基づいて推論する能力は、まだ十分に研究されていません。
このペーパーでは、チャート ドメインにおける既製の MLLM の能力を包括的かつ厳密にベンチマークするために、18 のチャート タイプ、7 つのチャート タスク、22 の専門的トピック、および高度な評価セットをカバーするマルチモーダル評価セットである ChartX を構築します。
品質チャートデータ。
さらに、チャートや幾何学的な画像の分野での推論タスクなど、解釈可能なパターンに大きく依存するマルチモーダル タスクの処理に関する新しい視点を提供するために、ChartVLM を開発しています。
私たちは、提案された ChartX 評価セットで主流の MLLM と ChartVLM のチャート関連の能力を評価します。
広範な実験により、ChartVLM が多用途モデルとチャート関連の大規模モデルの両方を上回り、GPT-4V に匹敵する結果が得られることが実証されました。
私たちは、私たちの研究が、より包括的なチャート評価セットの作成と、より解釈可能なマルチモーダル モデルの開発におけるさらなる探求への道を開くことができると信じています。
ChartX と ChartVLM は両方とも、https://github.com/UniModal4Reasoning/ChartVLM から入手できます。
要約(オリジナル)
Recently, many versatile Multi-modal Large Language Models (MLLMs) have emerged continuously. However, their capacity to query information depicted in visual charts and engage in reasoning based on the queried contents remains under-explored. In this paper, to comprehensively and rigorously benchmark the ability of the off-the-shelf MLLMs in the chart domain, we construct ChartX, a multi-modal evaluation set covering 18 chart types, 7 chart tasks, 22 disciplinary topics, and high-quality chart data. Besides, we develop ChartVLM to offer a new perspective on handling multi-modal tasks that strongly depend on interpretable patterns, such as reasoning tasks in the field of charts or geometric images. We evaluate the chart-related ability of mainstream MLLMs and our ChartVLM on the proposed ChartX evaluation set. Extensive experiments demonstrate that ChartVLM surpasses both versatile and chart-related large models, achieving results comparable to GPT-4V. We believe that our study can pave the way for further exploration in creating a more comprehensive chart evaluation set and developing more interpretable multi-modal models. Both ChartX and ChartVLM are available at: https://github.com/UniModal4Reasoning/ChartVLM
arxiv情報
著者 | Renqiu Xia,Bo Zhang,Hancheng Ye,Xiangchao Yan,Qi Liu,Hongbin Zhou,Zijun Chen,Min Dou,Botian Shi,Junchi Yan,Yu Qiao |
発行日 | 2024-02-19 14:48:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google