Evaluating Task-based Effectiveness of MLLMs on Charts

要約

このペーパーでは、GPT-4V はチャート上の低レベルのデータ分析タスクに効果的か?という前向きな質問を検討します。
この目的を達成するために、まず ChartInsights という名前の大規模なデータセットを作成します。このデータセットは 89,388 のカルテット (グラフ、タスク、質問、回答) で構成され、7 種類のグラフで広く使用されている 10 の低レベルのデータ分析タスクをカバーしています。
まず、12 のオープンソース モデルと 6 つのクローズド ソース モデルを含む 18 の高度な MLLM の機能と制限を理解するために体系的な評価を実施します。
標準的なテキスト プロンプト アプローチから始めた場合、18 MLLM 全体の平均正解率は 36.17% です。
すべてのモデルの中で、GPT-4V は 56.13% に達する最高の精度を実現します。
低レベルのデータ分析タスクにおけるマルチモーダル大規模モデルの限界を理解するために、GPT-4V の機能の詳細なテストを行うためのさまざまな実験を設計しました。
さらに、視覚要素の変更 (例: カラースキームの変更) や摂動の導入 (例: 画像ノイズの追加) などのチャートへの視覚的な変更が GPT-4V のパフォーマンスにどのように影響するかを調査します。
次に、12 の実験結果を紹介します。
これらの発見は、チャートとのインタラクションに革命をもたらし、人間の分析ニーズと GPT-4V の機能の間のギャップを明らかにする GPT-4V の可能性を示唆しています。
3 番目に、低レベルの分析タスク向けに調整された、Chain-of-Charts と呼ばれる新しいテキスト プロンプト戦略を提案します。これにより、モデルのパフォーマンスが 24.36% 向上し、精度が 80.49% になります。
さらに、質問に関連する視覚要素に GPT-4V の注意を向ける視覚的プロンプト戦略を組み込むことにより、精度がさらに 83.83% まで向上しました。
私たちの研究は、低レベルのデータ分析タスクにおける GPT-4V の機能と限界を明らかにするだけでなく、将来の研究のための貴重な洞察も提供します。

要約(オリジナル)

In this paper, we explore a forward-thinking question: Is GPT-4V effective at low-level data analysis tasks on charts? To this end, we first curate a large-scale dataset, named ChartInsights, consisting of 89,388 quartets (chart, task, question, answer) and covering 10 widely-used low-level data analysis tasks on 7 chart types. Firstly, we conduct systematic evaluations to understand the capabilities and limitations of 18 advanced MLLMs, which include 12 open-source models and 6 closed-source models. Starting with a standard textual prompt approach, the average accuracy rate across the 18 MLLMs is 36.17%. Among all the models, GPT-4V achieves the highest accuracy, reaching 56.13%. To understand the limitations of multimodal large models in low-level data analysis tasks, we have designed various experiments to conduct an in-depth test of capabilities of GPT-4V. We further investigate how visual modifications to charts, such as altering visual elements (e.g. changing color schemes) and introducing perturbations (e.g. adding image noise), affect performance of GPT-4V. Secondly, we present 12 experimental findings. These findings suggest potential of GPT-4V to revolutionize interaction with charts and uncover the gap between human analytic needs and capabilities of GPT-4V. Thirdly, we propose a novel textual prompt strategy, named Chain-of-Charts, tailored for low-level analysis tasks, which boosts model performance by 24.36%, resulting in an accuracy of 80.49%. Furthermore, by incorporating a visual prompt strategy that directs attention of GPT-4V to question-relevant visual elements, we further improve accuracy to 83.83%. Our study not only sheds light on the capabilities and limitations of GPT-4V in low-level data analysis tasks but also offers valuable insights for future research.

arxiv情報

著者 Yifan Wu,Lutao Yan,Yuyu Luo,Yunhai Wang,Nan Tang
発行日 2024-06-17 15:44:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク