要約
LLM エージェント用のマルチモーダル評価データセットである Plancraft を紹介します。
Plancraft には、Minecraft クラフト GUI に基づいた、テキストのみのインターフェイスとマルチモーダル インターフェイスの両方があります。
ツールの使用と取得拡張生成 (RAG) を評価するための Minecraft Wiki に加え、最新のエージェント アーキテクチャのさまざまなコンポーネントを除去するための Oracle プランナーと Oracle RAG 情報抽出機能も含まれています。
意思決定を評価するために、Plancraft には意図的に解決不可能な例のサブセットも含まれており、エージェントがタスクを完了するだけでなく、タスクがそもそも解決可能かどうかを判断する必要がある現実的な課題を提供します。
私たちは、オープンソースとクローズドソースの両方の LLM と戦略をタスクに関してベンチマークし、そのパフォーマンスを手作りのプランナーと比較します。
LLM と VLM は、Plancraft によってもたらされる計画上の問題に苦戦していることがわかり、その機能を改善する方法について提案を提供します。
要約(オリジナル)
We present Plancraft, a multi-modal evaluation dataset for LLM agents. Plancraft has both a text-only and multi-modal interface, based on the Minecraft crafting GUI. We include the Minecraft Wiki to evaluate tool use and Retrieval Augmented Generation (RAG), as well as an oracle planner and oracle RAG information extractor, to ablate the different components of a modern agent architecture. To evaluate decision-making, Plancraft also includes a subset of examples that are intentionally unsolvable, providing a realistic challenge that requires the agent not only to complete tasks but also to decide whether they are solvable at all. We benchmark both open-source and closed-source LLMs and strategies on our task and compare their performance to a handcrafted planner. We find that LLMs and VLMs struggle with the planning problems that Plancraft introduces, and we offer suggestions on how to improve their capabilities.
arxiv情報
著者 | Gautier Dagan,Frank Keller,Alex Lascarides |
発行日 | 2024-12-30 15:58:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google