要約
私たちは、Visual Question Answering (VQA) モデルを活用して、LLM で生成されたデータ視覚化の評価を自動化する新しいフレームワークを提案します。
従来の評価方法は人間の判断に依存することが多く、コストが高く拡張性がなかったり、データの正確性のみに重点を置いてビジュアルコミュニケーションの有効性を無視していたりします。
VQA モデルを採用することで、データ表現の品質とグラフの一般的な伝達の明瞭さを評価します。
実験は、OpenAI の GPT-3.5 Turbo および Meta の Llama 3.1 70B-Instruct モデルによって生成された視覚化を使用して、2 つの主要な VQA ベンチマーク データセット、ChartQA と PlotQA を使用して実施されました。
結果は、LLM で生成されたチャートが、VQA パフォーマンス測定に基づいた、LLM 以外で生成された元のチャートの精度と一致しないことを示しています。
さらに、私たちの結果は、少数ショット プロンプトによってチャート生成の精度が大幅に向上することを示していますが、LLM が人間が作成したグラフの精度と完全に一致するまでには、まだかなりの進歩が必要です。
これは、人間による注釈を必要とせずに迅速な反復を可能にすることで研究プロセスを促進し、この分野の進歩を加速する私たちの研究の重要性を強調しています。
要約(オリジナル)
We propose a novel framework that leverages Visual Question Answering (VQA) models to automate the evaluation of LLM-generated data visualizations. Traditional evaluation methods often rely on human judgment, which is costly and unscalable, or focus solely on data accuracy, neglecting the effectiveness of visual communication. By employing VQA models, we assess data representation quality and the general communicative clarity of charts. Experiments were conducted using two leading VQA benchmark datasets, ChartQA and PlotQA, with visualizations generated by OpenAI’s GPT-3.5 Turbo and Meta’s Llama 3.1 70B-Instruct models. Our results indicate that LLM-generated charts do not match the accuracy of the original non-LLM-generated charts based on VQA performance measures. Moreover, while our results demonstrate that few-shot prompting significantly boosts the accuracy of chart generation, considerable progress remains to be made before LLMs can fully match the precision of human-generated graphs. This underscores the importance of our work, which expedites the research process by enabling rapid iteration without the need for human annotation, thus accelerating advancements in this field.
arxiv情報
著者 | James Ford,Xingmeng Zhao,Dan Schumacher,Anthony Rios |
発行日 | 2024-09-27 14:02:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google