PUB: Plot Understanding Benchmark and Dataset for Evaluating Large Language Models on Synthetic Visual Data Interpretation

要約

データの視覚的表現を解釈する大規模言語モデル (LLM) の機能は、データ分析や意思決定プロセスでのアプリケーションを前進させるために非常に重要です。
この論文では、時系列、ヒストグラム、バイオリン、箱ひげ図、クラスターなどのプロットを含む、さまざまな形式のデータ視覚化を解釈する際の LLM の習熟度を評価するために設計された新しい合成データセットを紹介します。
私たちのデータセットは、潜在的な現実世界のシナリオを包括的にカバーするために、制御されたパラメーターを使用して生成されています。
画像内の視覚データに関連する質問を含むマルチモーダル テキスト プロンプトを使用して、ChatGPT や Gemini などのいくつかの最先端モデルをベンチマークし、理解と解釈の正確さを評価します。
データの整合性を確保するために、ベンチマーク データセットは自動的に生成され、完全に新しくなり、テスト対象のモデルに事前にさらされる必要はありません。
この戦略により、データを真に解釈して理解するモデルの能力を評価できるようになり、事前学習された応答の可能性が排除され、モデルの能力を公平に評価できるようになります。
また、モデルのパフォーマンスを評価するための定量的な指標も導入し、堅牢で包括的な評価ツールを提供します。
このデータセットを使用していくつかの最先端の LLM をベンチマークすると、さまざまな程度の成功が明らかになり、多様なタイプの視覚データを解釈する際の特定の長所と短所が浮き彫りになります。
結果は、LLM の現在の機能に関する貴重な洞察を提供し、改善すべき重要な領域を特定します。
この研究は、言語モデルの視覚的解釈能力を強化することを目的とした将来の研究開発のための基礎的なベンチマークを確立します。
将来的には、堅牢な視覚的解釈スキルを備えた改良された LLM は、自動データ分析、科学研究、教育ツール、ビジネス インテリジェンス アプリケーションに大きく役立つ可能性があります。

要約(オリジナル)

The ability of large language models (LLMs) to interpret visual representations of data is crucial for advancing their application in data analysis and decision-making processes. This paper presents a novel synthetic dataset designed to evaluate the proficiency of LLMs in interpreting various forms of data visualizations, including plots like time series, histograms, violins, boxplots, and clusters. Our dataset is generated using controlled parameters to ensure comprehensive coverage of potential real-world scenarios. We employ multimodal text prompts with questions related to visual data in images to benchmark several state-of-the-art models like ChatGPT or Gemini, assessing their understanding and interpretative accuracy. To ensure data integrity, our benchmark dataset is generated automatically, making it entirely new and free from prior exposure to the models being tested. This strategy allows us to evaluate the models’ ability to truly interpret and understand the data, eliminating possibility of pre-learned responses, and allowing for an unbiased evaluation of the models’ capabilities. We also introduce quantitative metrics to assess the performance of the models, providing a robust and comprehensive evaluation tool. Benchmarking several state-of-the-art LLMs with this dataset reveals varying degrees of success, highlighting specific strengths and weaknesses in interpreting diverse types of visual data. The results provide valuable insights into the current capabilities of LLMs and identify key areas for improvement. This work establishes a foundational benchmark for future research and development aimed at enhancing the visual interpretative abilities of language models. In the future, improved LLMs with robust visual interpretation skills can significantly aid in automated data analysis, scientific research, educational tools, and business intelligence applications.

arxiv情報

著者 Aneta Pawelec,Victoria Sara Wesołowska,Zuzanna Bączek,Piotr Sankowski
発行日 2024-09-04 11:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク