CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models

要約

カリキュラム学習は強化学習 (RL) のトレーニング メカニズムであり、トレーニング中にタスクの難易度を段階的に高めることで複雑なポリシーの達成を促進します。
ただし、特定のタスクに効果的なカリキュラムを設計するには、多くの場合、広範な分野の知識と人間の介入が必要となるため、さまざまな分野への適用性が制限されます。
私たちの中心的な考え方は、多様な言語データに関する広範なトレーニングと世界の知識をカプセル化する機能を備えた大規模言語モデル (LLM) が、さまざまなロボット環境全体で効率的にタスクを分解し、スキルを分解するための大きな可能性を提示するというものです。
さらに、自然言語を RL エージェントの実行可能コードに変換する際の LLM の成功が実証され、タスク カリキュラムの生成における LLM の役割が強化されます。
この研究では、LLM の高度な計画およびプログラミング機能をカリキュラム設計に活用し、それによって複雑な対象タスクの効率的な学習を強化する CurricuLLM を提案します。
CurricuLLM は以下で構成されます: (ステップ 1) 自然言語形式でターゲット タスクの学習を支援するサブタスクのシーケンスを生成する、(ステップ 2) 報酬コードと目標配分コードを含む、実行可能なタスク コード内のサブタスクの自然言語記述を翻訳する、および (ステップ 3)
) 軌跡のロールアウトとサブタスクの説明に基づいて、トレーニングされたポリシーを評価します。
私たちは、操作、ナビゲーション、移動に至るまでのさまざまなロボット シミュレーション環境で CurricuLLM を評価し、CurricuLLM が複雑なロボット制御タスクの学習に役立つことを示します。
さらに、CurricuLLMを通じて学習した人型の移動ポリシーを実世界で検証します。
コードは https://github.com/labicon/CurricuLLM で提供されます。

要約(オリジナル)

Curriculum learning is a training mechanism in reinforcement learning (RL) that facilitates the achievement of complex policies by progressively increasing the task difficulty during training. However, designing effective curricula for a specific task often requires extensive domain knowledge and human intervention, which limits its applicability across various domains. Our core idea is that large language models (LLMs), with their extensive training on diverse language data and ability to encapsulate world knowledge, present significant potential for efficiently breaking down tasks and decomposing skills across various robotics environments. Additionally, the demonstrated success of LLMs in translating natural language into executable code for RL agents strengthens their role in generating task curricula. In this work, we propose CurricuLLM, which leverages the high-level planning and programming capabilities of LLMs for curriculum design, thereby enhancing the efficient learning of complex target tasks. CurricuLLM consists of: (Step 1) Generating sequence of subtasks that aid target task learning in natural language form, (Step 2) Translating natural language description of subtasks in executable task code, including the reward code and goal distribution code, and (Step 3) Evaluating trained policies based on trajectory rollout and subtask description. We evaluate CurricuLLM in various robotics simulation environments, ranging from manipulation, navigation, and locomotion, to show that CurricuLLM can aid learning complex robot control tasks. In addition, we validate humanoid locomotion policy learned through CurricuLLM in real-world. The code is provided in https://github.com/labicon/CurricuLLM

arxiv情報

著者 Kanghyun Ryu,Qiayuan Liao,Zhongyu Li,Koushil Sreenath,Negar Mehr
発行日 2024-09-27 01:48:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク