要約
Natural Language to Visualization (NL2Vis) タスクは、自然言語の説明を根拠のあるテーブルの視覚的表現に変換し、ユーザーが膨大な量のデータから洞察を得ることができるようにすることを目的としています。
最近、NL2Vis 向けに多くの深層学習ベースのアプローチが開発されています。
これらのアプローチでは多大な努力が払われていますが、目に見えないデータベースや複数のテーブルにまたがるデータを視覚化する際には依然として課題が残っています。
この論文では、大規模言語モデル (LLM) の優れた生成機能からインスピレーションを得て、視覚化の生成における LLM の可能性を評価し、このタスクを強化するためのコンテキスト内学習プロンプトの有効性を調査する実証研究を実施します。
特に、最初に、構造化された表形式のデータを一連のテキスト プロンプトに変換して LLM にフィードし、どの表の内容が NL2Vis に最も貢献しているかを分析する方法を検討します。
私たちの調査結果は、構造化された表形式データをプログラムに変換することが効果的であり、プロンプトを作成する際にはテーブル スキーマを考慮することが不可欠であることを示唆しています。
さらに、NL2Vis ベンチマーク (nvBench) を使用して、最先端の手法に対して、微調整モデル (例: T5-Small) と推論専用モデル (例: GPT-3.5) の 2 種類の LLM を評価します。
。
実験結果は、LLM がベースラインを上回るパフォーマンスを示し、推論のみのモデルが一貫してパフォーマンスの向上を示し、コンテキスト内学習による特定の数ショットのデモンストレーションが提供された場合には、場合によっては微調整されたモデルを上回ることさえあることを示しています。
最後に、NL2Vis で LLM がいつ失敗するかを分析し、思考連鎖、ロールプレイング、コード インタプリタなどの戦略を使用して結果を繰り返し更新することを提案します。
実験結果は、反復更新の有効性を確認し、将来の研究に大きな可能性を秘めています。
要約(オリジナル)
The Natural Language to Visualization (NL2Vis) task aims to transform natural-language descriptions into visual representations for a grounded table, enabling users to gain insights from vast amounts of data. Recently, many deep learning-based approaches have been developed for NL2Vis. Despite the considerable efforts made by these approaches, challenges persist in visualizing data sourced from unseen databases or spanning multiple tables. Taking inspiration from the remarkable generation capabilities of Large Language Models (LLMs), this paper conducts an empirical study to evaluate their potential in generating visualizations, and explore the effectiveness of in-context learning prompts for enhancing this task. In particular, we first explore the ways of transforming structured tabular data into sequential text prompts, as to feed them into LLMs and analyze which table content contributes most to the NL2Vis. Our findings suggest that transforming structured tabular data into programs is effective, and it is essential to consider the table schema when formulating prompts. Furthermore, we evaluate two types of LLMs: finetuned models (e.g., T5-Small) and inference-only models (e.g., GPT-3.5), against state-of-the-art methods, using the NL2Vis benchmarks (i.e., nvBench). The experimental results reveal that LLMs outperform baselines, with inference-only models consistently exhibiting performance improvements, at times even surpassing fine-tuned models when provided with certain few-shot demonstrations through in-context learning. Finally, we analyze when the LLMs fail in NL2Vis, and propose to iteratively update the results using strategies such as chain-of-thought, role-playing, and code-interpreter. The experimental results confirm the efficacy of iterative updates and hold great potential for future study.
arxiv情報
著者 | Yang Wu,Yao Wan,Hongyu Zhang,Yulei Sui,Wucai Wei,Wei Zhao,Guandong Xu,Hai Jin |
発行日 | 2024-04-26 03:25:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google