Tapilot-Crossing: Benchmarking and Evolving LLMs Towards Interactive Data Analysis Agents

要約

人間と LLM エージェント間のコラボレーションである対話型データ分析により、情報に基づいた意思決定のためのリアルタイムのデータ探索が可能になります。
データ分析のために現実的な対話型ログを収集するという課題とコストが、このタスクにおける大規模言語モデル (LLM) エージェントの定量的評価の妨げとなります。
この問題を軽減するために、対話型データ分析で LLM エージェントを評価するための新しいベンチマークである Tapilot-Crossing を導入します。
Tapilot-Crossing には 1024 のインタラクションが含まれており、通常、アクション、プライベート、プライベート アクションの 4 つの実用的なシナリオをカバーしています。
特に、Tapilot-Crossing は経済的なマルチエージェント環境である Decision Company によって、人間の労力をほとんど必要とせずに構築されています。
Tapilot-Crossing で人気のある高度な LLM エージェントを評価します。これは、対話型データ分析の課題を浮き彫りにします。
さらに、LLM エージェントが成功の歴史から学ぶように導く自己生成リフレクション戦略である Adaptive Interaction Reflection (AIR) を提案します。
実験では、Air が LLM を効果的な対話型データ分析エージェントに進化させ、最大 44.5% の相対的なパフォーマンス向上を達成できることが実証されています。

要約(オリジナル)

Interactive Data Analysis, the collaboration between humans and LLM agents, enables real-time data exploration for informed decision-making. The challenges and costs of collecting realistic interactive logs for data analysis hinder the quantitative evaluation of Large Language Model (LLM) agents in this task. To mitigate this issue, we introduce Tapilot-Crossing, a new benchmark to evaluate LLM agents on interactive data analysis. Tapilot-Crossing contains 1024 interactions, covering 4 practical scenarios: Normal, Action, Private, and Private Action. Notably, Tapilot-Crossing is constructed by an economical multi-agent environment, Decision Company, with few human efforts. We evaluate popular and advanced LLM agents in Tapilot-Crossing, which underscores the challenges of interactive data analysis. Furthermore, we propose Adaptive Interaction Reflection (AIR), a self-generated reflection strategy that guides LLM agents to learn from successful history. Experiments demonstrate that Air can evolve LLMs into effective interactive data analysis agents, achieving a relative performance improvement of up to 44.5%.

arxiv情報

著者 Jinyang Li,Nan Huo,Yan Gao,Jiayi Shi,Yingxiu Zhao,Ge Qu,Yurong Wu,Chenhao Ma,Jian-Guang Lou,Reynold Cheng
発行日 2024-03-08 13:34:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク