要約
大規模言語モデル (LLM) は、言語理解やインタラクティブな意思決定のタスクにますます適用されており、その優れたパフォーマンスは、LLM に組み込まれた広範なドメイン知識に大きく起因しています。
ただし、この知識の深さと広さはドメインによって異なる場合があります。
既存のアプローチの多くは、LLM が環境を包括的に理解していることを前提としており、実際の世界のダイナミクスの把握における潜在的なギャップを見逃していることがよくあります。
これに対処するために、少数のデモンストレーションから世界のダイナミクスを発見し、そのダイナミクスの精度を検証し、現在の状況に合わせた新しい高度なダイナミクスを進化させるフレームワークである Discover、Verify、Evolve (DiVE) を導入します。
広範な評価を通じて、各コンポーネントがパフォーマンスに与える影響を評価し、DiVE によって生成されたダイナミクスを人間が注釈を付けたダイナミクスと比較します。
私たちの結果は、DiVE によって導かれた LLM がより多くの情報に基づいた意思決定を行い、Crafter 環境では人間のプレイヤーと同等の報酬を達成し、MiniHack 環境では事前のタスク固有のトレーニングを必要とする方法を上回っていることを示しています。
要約(オリジナル)
Large language models (LLMs) have been increasingly applied to tasks in language understanding and interactive decision-making, with their impressive performance largely attributed to the extensive domain knowledge embedded within them. However, the depth and breadth of this knowledge can vary across domains. Many existing approaches assume that LLMs possess a comprehensive understanding of their environment, often overlooking potential gaps in their grasp of actual world dynamics. To address this, we introduce Discover, Verify, and Evolve (DiVE), a framework that discovers world dynamics from a small number of demonstrations, verifies the accuracy of these dynamics, and evolves new, advanced dynamics tailored to the current situation. Through extensive evaluations, we assess the impact of each component on performance and compare the dynamics generated by DiVE to human-annotated dynamics. Our results show that LLMs guided by DiVE make more informed decisions, achieving rewards comparable to human players in the Crafter environment and surpassing methods that require prior task-specific training in the MiniHack environment.
arxiv情報
著者 | Zhiyuan Sun,Haochen Shi,Marc-Alexandre Côté,Glen Berseth,Xingdi Yuan,Bang Liu |
発行日 | 2024-10-15 15:48:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google