要約
科学データの視覚化は、複雑な情報の直接表示を可能にし、研究者が暗黙のパターンを特定するのを支援することで、研究において重要な役割を果たします。
その重要性にもかかわらず、科学データの視覚化のための大規模言語モデル (LLM) の使用は、ほとんど研究されていないままです。
この研究では、科学データの視覚化タスクを自動化するために設計された効率的なモデルに依存しない LLM エージェント フレームワークである MatPlotAgent を紹介します。
コード LLM とマルチモーダル LLM の両方の機能を活用する MatPlotAgent は、クエリの理解、反復デバッグによるコード生成、およびエラー修正のための視覚的なフィードバック メカニズムの 3 つのコア モジュールで構成されています。
この分野におけるベンチマークの欠如に対処するために、人間が検証した 100 のテスト ケースで構成される高品質のベンチマークである MatPlotBench を紹介します。
さらに、自動評価に GPT-4V を利用したスコアリング アプローチを導入します。
実験結果は、MatPlotAgent が商用モデルとオープンソース モデルの両方を含むさまざまな LLM のパフォーマンスを向上できることを示しています。
さらに、提案された評価方法は、人間が注釈を付けたスコアと強い相関を示しました。
要約(オリジナル)
Scientific data visualization plays a crucial role in research by enabling the direct display of complex information and assisting researchers in identifying implicit patterns. Despite its importance, the use of Large Language Models (LLMs) for scientific data visualization remains rather unexplored. In this study, we introduce MatPlotAgent, an efficient model-agnostic LLM agent framework designed to automate scientific data visualization tasks. Leveraging the capabilities of both code LLMs and multi-modal LLMs, MatPlotAgent consists of three core modules: query understanding, code generation with iterative debugging, and a visual feedback mechanism for error correction. To address the lack of benchmarks in this field, we present MatPlotBench, a high-quality benchmark consisting of 100 human-verified test cases. Additionally, we introduce a scoring approach that utilizes GPT-4V for automatic evaluation. Experimental results demonstrate that MatPlotAgent can improve the performance of various LLMs, including both commercial and open-source models. Furthermore, the proposed evaluation method shows a strong correlation with human-annotated scores.
arxiv情報
著者 | Zhiyu Yang,Zihan Zhou,Shuo Wang,Xin Cong,Xu Han,Yukun Yan,Zhenghao Liu,Zhixing Tan,Pengyuan Liu,Dong Yu,Zhiyuan Liu,Xiaodong Shi,Maosong Sun |
発行日 | 2024-03-19 14:44:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google