要約
このペーパーでは、視覚データ探索のアシスタントとしての言語モデルの有効性を評価するために設計された、人間がキュレーションしたPandasplotbench Datasetを紹介します。
当社のベンチマークは、自然言語の指示に基づいて、パンダデータフレームなどの表形式データを視覚化するためのコードの生成に焦点を当て、現在の評価ツールを補完し、範囲を拡大します。
データセットには、175の一意のタスクが含まれています。
私たちの実験は、Matplotlib、Seaborn、およびPlotlyの3つの視覚化ライブラリにわたって、いくつかの主要な大手言語モデル(LLM)を評価します。
タスクの短縮は、機能のプロットに最小限の影響を与え、機能性や精度を犠牲にすることなく簡潔なユーザー入力に対応するユーザーインターフェイスを可能にすることを示します。
私たちの調査結果のもう1つは、LLMSがMatplotlibやSeabornなどの人気のあるライブラリでうまく機能しますが、課題は陰謀に続き、改善の領域を強調しています。
ベンチマークのモジュール設計により、視覚化の生成に関する現在の研究が拡大することを願っています。
データセットとベンチマークコードは、オンラインで入手できます:https://huggingface.co/datasets/jetbrains-research/pandasplotbench;
https://github.com/jetbrains-research/pandasplotbench。
要約(オリジナル)
This paper introduces the human-curated PandasPlotBench dataset, designed to evaluate language models’ effectiveness as assistants in visual data exploration. Our benchmark focuses on generating code for visualizing tabular data – such as a Pandas DataFrame – based on natural language instructions, complementing current evaluation tools and expanding their scope. The dataset includes 175 unique tasks. Our experiments assess several leading Large Language Models (LLMs) across three visualization libraries: Matplotlib, Seaborn, and Plotly. We show that the shortening of tasks has a minimal effect on plotting capabilities, allowing for the user interface that accommodates concise user input without sacrificing functionality or accuracy. Another of our findings reveals that while LLMs perform well with popular libraries like Matplotlib and Seaborn, challenges persist with Plotly, highlighting areas for improvement. We hope that the modular design of our benchmark will broaden the current studies on generating visualizations. Our dataset and benchmark code are available online: https://huggingface.co/datasets/JetBrains-Research/PandasPlotBench; https://github.com/JetBrains-Research/PandasPlotBench.
arxiv情報
著者 | Timur Galimzyanov,Sergey Titov,Yaroslav Golubev,Egor Bogomolov |
発行日 | 2025-02-26 16:52:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google