要約
テキストベースのゲームは、言語ベースの自律エージェントに貴重な環境を提供します。
ただし、モンテカルロツリー検索(MCTS)と強化学習(RL)を組み合わせたものなど、計画と学習のパラダイムは、特に大規模な反復により時間がかかります。
さらに、これらのアルゴリズムは不確実性駆動型の探索を実行しますが、言語の理解と推論能力がありません。
このホワイトペーパーでは、動的なメモリ誘導大型言語モデル(MC-DML)アルゴリズムを使用したモンテカルロ計画を紹介します。
MC-DMLは、ツリー検索アルゴリズムの探索的利点とともに、大規模な言語モデル(LLMS)の言語理解と推論機能を活用しています。
具体的には、試行内および審理メモリメカニズムを使用してLLMを強化し、過去の経験から学習し、計画中のアクション評価を動的に調整できるようにします。
私たちは、ジェリコのベンチマークから一連のテキストベースのゲームで実験を実施しています。
我々の結果は、MC-DMLアルゴリズムが初期計画段階でさまざまなゲームのパフォーマンスを大幅に向上させ、複数の反復を必要とする強力な現代的な方法を上回ることを示しています。
これは、私たちのアルゴリズムの有効性を示しており、複雑な環境でより効率的な言語に基づいた計画への道を開いています。
要約(オリジナル)
Text-based games provide valuable environments for language-based autonomous agents. However, planning-then-learning paradigms, such as those combining Monte Carlo Tree Search (MCTS) and reinforcement learning (RL), are notably time-consuming due to extensive iterations. Additionally, these algorithms perform uncertainty-driven exploration but lack language understanding and reasoning abilities. In this paper, we introduce the Monte Carlo planning with Dynamic Memory-guided Large language model (MC-DML) algorithm. MC-DML leverages the language understanding and reasoning capabilities of Large Language Models (LLMs) alongside the exploratory advantages of tree search algorithms. Specifically, we enhance LLMs with in-trial and cross-trial memory mechanisms, enabling them to learn from past experiences and dynamically adjust action evaluations during planning. We conduct experiments on a series of text-based games from the Jericho benchmark. Our results demonstrate that the MC-DML algorithm significantly enhances performance across various games at the initial planning phase, outperforming strong contemporary methods that require multiple iterations. This demonstrates the effectiveness of our algorithm, paving the way for more efficient language-grounded planning in complex environments.
arxiv情報
著者 | Zijing Shi,Meng Fang,Ling Chen |
発行日 | 2025-04-23 16:23:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google