Sequential Planning in Large Partially Observable Environments guided by LLMs

要約

大規模な状態空間とアクション空間での逐次計画は、検索空間の組み合わせ爆発によりすぐに手に負えなくなります。
モンテカルロ木探索のようなヒューリスティック手法は、状態空間が大きい場合には効果的ですが、アクション空間が大きい場合には困難を伴います。
報酬シグナルのみに依存する純粋な強化学習手法では、実行可能な計画を立てるために環境との非常に大規模なインタラクションが必要です。
状態空間、観察、アクションを自然言語で表現できる場合は、大規模言語モデル (LLM) を使用してアクション プランを生成できます。
最近、Reflexion、CLIN、SayCan などのこのような目標指向型エージェントのいくつかは、タスク固有のトレーニングを最小限またはまったく行わずに、他の最先端のメソッドのパフォーマンスを上回ることができました。
しかし、彼らはまだ探索に苦労しており、局所最適化にはまってしまいます。
それらの計画能力は、テキスト データに対する基本的な LLM の限られた推論能力によって制限されます。
私たちは、状態空間検索と基本的な LLM へのクエリの両方を相乗して最適なアクション プランを取得する、ハイブリッド エージェント「ネオプランナー」を提案します。
報酬シグナルは、検索を促進するために定量的に使用されます。
探索と活用のバランスは、状態の値の信頼限界を最大化することによって維持されます。
ランダムな探索が必要な場所では、LLM に問い合わせてアクション プランを生成します。
各トライアルからの学習は、エンティティ関係としてテキスト形式で保存されます。
これらは、継続的な改善のために LLM への今後のクエリで使用されます。
Scienceworld 環境での実験では、複数のタスクにわたって得られる平均報酬の点で、現在の最良の方法より 124% 向上していることが明らかになりました。

要約(オリジナル)

Sequential planning in large state space and action space quickly becomes intractable due to combinatorial explosion of the search space. Heuristic methods, like monte-carlo tree search, though effective for large state space, but struggle if action space is large. Pure reinforcement learning methods, relying only on reward signals, needs prohibitively large interactions with the environment to device a viable plan. If the state space, observations and actions can be represented in natural language then Large Language models (LLM) can be used to generate action plans. Recently several such goal-directed agents like Reflexion, CLIN, SayCan were able to surpass the performance of other state-of-the-art methods with minimum or no task specific training. But they still struggle with exploration and get stuck in local optima. Their planning capabilities are limited by the limited reasoning capability of the foundational LLMs on text data. We propose a hybrid agent ‘neoplanner’, that synergizes both state space search with queries to foundational LLM to get the best action plan. The reward signals are quantitatively used to drive the search. A balance of exploration and exploitation is maintained by maximizing upper confidence bounds of values of states. In places where random exploration is needed, the LLM is queried to generate an action plan. Learnings from each trial are stored as entity relationships in text format. Those are used in future queries to the LLM for continual improvement. Experiments in the Scienceworld environment reveals a 124% improvement from the current best method in terms of average reward gained across multiple tasks.

arxiv情報

著者 Swarna Kamal Paul
発行日 2023-12-12 15:36:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク