要約
大規模言語モデル(LLM)は、様々な言語タスクにおいて顕著な能力を示しており、ロボット工学における意思決定のための有望な候補となっている。階層的強化学習(HRL)に触発され、我々は、LLMに基づく高レベルポリシーを使用して、複雑なタスクをサブタスクに分解する新しいフレームワークである、検索補強型コンテキスト内強化学習(Retrieval-Augmented in-context reinforcement Learning: RAHL)を提案する。目標によって定義されたサブタスクは、完了するために低レベルポリシーに割り当てられる。複数エピソードの実行におけるエージェントの性能を向上させるために、我々はHindsight Modular Reflection (HMR)を提案する。HMRでは、エージェントに全軌跡を反映させる代わりに、より短い部分軌跡を反映させ、反映効率を向上させる。提案するRAHLの意思決定能力を3つのベンチマーク環境–ALFWorld、Webshop、HotpotQA–で評価した。その結果,RAHLは強力なベースラインに対して,5回の実行で9%,42%,10%の性能向上を達成できることがわかった.さらに、我々はBoston Dynamics SPOTロボットにもRAHLを実装した。実験の結果、ロボットは環境をスキャンし、入り口を見つけ、LLMポリシーによって制御された新しい部屋に移動できることが示された。
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable abilities in various language tasks, making them promising candidates for decision-making in robotics. Inspired by Hierarchical Reinforcement Learning (HRL), we propose Retrieval-Augmented in-context reinforcement Learning (RAHL), a novel framework that decomposes complex tasks into sub-tasks using an LLM-based high-level policy, in which a complex task is decomposed into sub-tasks by a high-level policy on-the-fly. The sub-tasks, defined by goals, are assigned to the low-level policy to complete. To improve the agent’s performance in multi-episode execution, we propose Hindsight Modular Reflection (HMR), where, instead of reflecting on the full trajectory, we let the agent reflect on shorter sub-trajectories to improve reflection efficiency. We evaluated the decision-making ability of the proposed RAHL in three benchmark environments–ALFWorld, Webshop, and HotpotQA. The results show that RAHL can achieve an improvement in performance in 9%, 42%, and 10% in 5 episodes of execution in strong baselines. Furthermore, we also implemented RAHL on the Boston Dynamics SPOT robot. The experiment shows that the robot can scan the environment, find entrances, and navigate to new rooms controlled by the LLM policy.
arxiv情報
著者 | Chuanneng Sun,Songjun Huang,Dario Pompili |
発行日 | 2024-10-04 17:50:34+00:00 |
arxivサイト | arxiv_id(pdf) |