要約
カリキュラム学習は、トレーニング中のタスクの難易度を徐々に増加させることにより、複雑なポリシーの達成を促進する強化学習(RL)のトレーニングメカニズムです。
ただし、特定のタスクに効果的なカリキュラムを設計するには、多くの場合、広範なドメインの知識と人間の介入が必要であり、さまざまなドメインにわたる適用性が制限されます。
私たちの核となるアイデアは、多様な言語データと世界知識をカプセル化する能力に関する広範なトレーニングにより、大規模な言語モデル(LLMS)が、さまざまなロボット環境でタスクを効率的に分解し、スキルを分解するための重要な可能性をもたらすことです。
さらに、RLエージェントの実行可能コードに自然言語を翻訳する際のLLMの実証された成功は、タスクカリキュラムの生成における役割を強化します。
この作業では、カリキュラム設計のためのLLMSの高レベルの計画とプログラミング機能を活用して、複雑なターゲットタスクの効率的な学習を強化するカリキュラムを提案します。
カリキュラムは次のもので構成されています。(ステップ1)自然言語形式でのターゲットタスク学習を支援するサブタスクの生成、(ステップ2)報酬コードと目標分布コードを含む実行可能タスクコードのサブタスクの自然言語の説明、および(ステップ3)トレーズロールアウトとサブタスクの説明に基づくトレーニングされたポリシーの評価。
操作、ナビゲーション、移動から、さまざまなロボットシミュレーション環境でカリキュラムを評価し、カリキュラムが複雑なロボット制御タスクの学習を支援できることを示します。
さらに、現実世界のカリキュラムを通じて学んだヒューマノイド運動ポリシーを検証します。
プロジェクトのウェブサイトはhttps://iconlab.negarmehr.com/curricullm/です
要約(オリジナル)
Curriculum learning is a training mechanism in reinforcement learning (RL) that facilitates the achievement of complex policies by progressively increasing the task difficulty during training. However, designing effective curricula for a specific task often requires extensive domain knowledge and human intervention, which limits its applicability across various domains. Our core idea is that large language models (LLMs), with their extensive training on diverse language data and ability to encapsulate world knowledge, present significant potential for efficiently breaking down tasks and decomposing skills across various robotics environments. Additionally, the demonstrated success of LLMs in translating natural language into executable code for RL agents strengthens their role in generating task curricula. In this work, we propose CurricuLLM, which leverages the high-level planning and programming capabilities of LLMs for curriculum design, thereby enhancing the efficient learning of complex target tasks. CurricuLLM consists of: (Step 1) Generating sequence of subtasks that aid target task learning in natural language form, (Step 2) Translating natural language description of subtasks in executable task code, including the reward code and goal distribution code, and (Step 3) Evaluating trained policies based on trajectory rollout and subtask description. We evaluate CurricuLLM in various robotics simulation environments, ranging from manipulation, navigation, and locomotion, to show that CurricuLLM can aid learning complex robot control tasks. In addition, we validate humanoid locomotion policy learned through CurricuLLM in real-world. Project website is https://iconlab.negarmehr.com/CurricuLLM/
arxiv情報
著者 | Kanghyun Ryu,Qiayuan Liao,Zhongyu Li,Payam Delgosha,Koushil Sreenath,Negar Mehr |
発行日 | 2025-04-14 22:02:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google