要約
データセットに対する人間の発話に応じてデータ視覚化を自動的に生成するには、データ属性、視覚化タスク、および必要なデータ準備手順への暗黙的および明示的参照を含む、データ発話の意味論的な深い理解が必要です。
データ視覚化のための自然言語インターフェイス (NLI) は、そのような情報を推論する方法を模索してきましたが、人間の音声に内在する不確実性のため、課題は依然として残っています。
大規模言語モデル (LLM) の最近の進歩により、これらの課題に対処する手段が提供されていますが、関連する意味情報を抽出する LLM の機能はまだ解明されていません。
この研究では、4 つの公的に利用可能な LLM (GPT-4、Gemini-Pro、Llama3、および Mixtral) を評価し、不確実性がある場合でも発話を理解し、関連するデータ コンテキストと視覚的タスクを特定する能力を調査します。
私たちの調査結果は、LLM が発話の不確実性に敏感であることを明らかにしています。
この機密性にもかかわらず、関連するデータ コンテキストを抽出することができます。
ただし、LLM は視覚化タスクの推論に苦労します。
これらの結果に基づいて、視覚化の生成に LLM を使用することに関する今後の研究の方向性を強調します。
要約(オリジナル)
Automatically generating data visualizations in response to human utterances on datasets necessitates a deep semantic understanding of the data utterance, including implicit and explicit references to data attributes, visualization tasks, and necessary data preparation steps. Natural Language Interfaces (NLIs) for data visualization have explored ways to infer such information, yet challenges persist due to inherent uncertainty in human speech. Recent advances in Large Language Models (LLMs) provide an avenue to address these challenges, but their ability to extract the relevant semantic information remains unexplored. In this study, we evaluate four publicly available LLMs (GPT-4, Gemini-Pro, Llama3, and Mixtral), investigating their ability to comprehend utterances even in the presence of uncertainty and identify the relevant data context and visual tasks. Our findings reveal that LLMs are sensitive to uncertainties in utterances. Despite this sensitivity, they are able to extract the relevant data context. However, LLMs struggle with inferring visualization tasks. Based on these results, we highlight future research directions on using LLMs for visualization generation.
arxiv情報
著者 | Hannah K. Bako,Arshnoor Buthani,Xinyi Liu,Kwesi A. Cobbina,Zhicheng Liu |
発行日 | 2024-07-08 17:04:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google