要約
自然言語命令を活用して複雑なロボット制御タスクを解決する対話型システムを開発することは、ロボット工学コミュニティにおいて長年望まれてきた目標でした。
大規模言語モデル (LLM) は、論理的推論、コンテキスト内学習、コード生成などの複雑なタスクを処理する際に優れた能力を発揮します。
ただし、LLM を使用して低レベルのロボット動作を予測するには、大きな課題が生じます。
さらに、このようなタスクは複雑であるため、通常、さまざまなサブタスクを実行し、それらを組み合わせて最終目的を達成するためのポリシーの取得が必要になります。
階層強化学習 (HRL) は、このようなタスクを解決するためのエレガントなアプローチであり、時間的な抽象化と探索の向上という直感的な利点を提供します。
ただし、HRL は、不安定な下位の原始的な動作による非定常性という繰り返しの問題に直面しています。
この研究では、言語命令を活用して上位レベルのポリシーの定常報酬関数を生成する新しい HRL フレームワークである LGR2 を提案します。
言語誘導型報酬は下位の原始的な動作の影響を受けないため、LGR2 は非定常性を軽減し、言語命令を活用してロボット制御タスクを解決するエレガントな方法となります。
私たちのアプローチの有効性を分析するために、経験的分析を実行し、LGR2がHRLの非定常性を効果的に軽減することを実証します。
私たちのアプローチは、ベースラインが大幅な進歩を達成できない、困難で報酬が少ないロボット ナビゲーションおよび操作環境において、70$\%$ を超える成功率を達成します。
さらに、私たちは現実世界のロボット操作実験を実施し、CRISP が現実世界のシナリオで印象的な一般化を示すことを実証します。
要約(オリジナル)
Developing interactive systems that leverage natural language instructions to solve complex robotic control tasks has been a long-desired goal in the robotics community. Large Language Models (LLMs) have demonstrated exceptional abilities in handling complex tasks, including logical reasoning, in-context learning, and code generation. However, predicting low-level robotic actions using LLMs poses significant challenges. Additionally, the complexity of such tasks usually demands the acquisition of policies to execute diverse subtasks and combine them to attain the ultimate objective. Hierarchical Reinforcement Learning (HRL) is an elegant approach for solving such tasks, which provides the intuitive benefits of temporal abstraction and improved exploration. However, HRL faces the recurring issue of non-stationarity due to unstable lower primitive behaviour. In this work, we propose LGR2, a novel HRL framework that leverages language instructions to generate a stationary reward function for the higher-level policy. Since the language-guided reward is unaffected by the lower primitive behaviour, LGR2 mitigates non-stationarity and is thus an elegant method for leveraging language instructions to solve robotic control tasks. To analyze the efficacy of our approach, we perform empirical analysis and demonstrate that LGR2 effectively alleviates non-stationarity in HRL. Our approach attains success rates exceeding 70$\%$ in challenging, sparse-reward robotic navigation and manipulation environments where the baselines fail to achieve any significant progress. Additionally, we conduct real-world robotic manipulation experiments and demonstrate that CRISP shows impressive generalization in real-world scenarios.
arxiv情報
著者 | Utsav Singh,Pramit Bhattacharyya,Vinay P. Namboodiri |
発行日 | 2024-06-09 18:40:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google