Stage-Wise Reward Shaping for Acrobatic Robots: A Constrained Multi-Objective Reinforcement Learning Approach

要約

強化学習 (RL) を通じて対処されるタスクの複雑さが増すにつれて、報酬関数の定義も非常に複雑になってきています。
直感的な戦略を通じて報酬形成プロセスを簡素化することを目的とした RL 手法を紹介します。
最初に、さまざまな項で構成される単一の報酬関数の代わりに、制約付き多目的 RL (CMORL) フレームワーク内で複数の報酬関数とコスト関数を定義します。
連続した複雑な動作を伴うタスクの場合、タスクを個別のステージに分割し、各ステージに対して複数の報酬とコストを定義します。
最後に、コストによって定義された制約を満たしながら、これらの報酬に基づいて目標を最大化する実用的な CMORL アルゴリズムを紹介します。
提案された方法は、シミュレーション環境と現実世界の環境の両方で、さまざまなアクロバティックなタスクにわたって成功裏に実証されています。
さらに、既存の RL アルゴリズムおよび制約付き RL アルゴリズムと比較して、タスクを正常に実行できることが示されています。
コードは https://github.com/rllab-snu/Stage-Wise-CMORL で入手できます。

要約(オリジナル)

As the complexity of tasks addressed through reinforcement learning (RL) increases, the definition of reward functions also has become highly complicated. We introduce an RL method aimed at simplifying the reward-shaping process through intuitive strategies. Initially, instead of a single reward function composed of various terms, we define multiple reward and cost functions within a constrained multi-objective RL (CMORL) framework. For tasks involving sequential complex movements, we segment the task into distinct stages and define multiple rewards and costs for each stage. Finally, we introduce a practical CMORL algorithm that maximizes objectives based on these rewards while satisfying constraints defined by the costs. The proposed method has been successfully demonstrated across a variety of acrobatic tasks in both simulation and real-world environments. Additionally, it has been shown to successfully perform tasks compared to existing RL and constrained RL algorithms. Our code is available at https://github.com/rllab-snu/Stage-Wise-CMORL.

arxiv情報

著者 Dohyeong Kim,Hyeokjin Kwon,Junseok Kim,Gunmin Lee,Songhwai Oh
発行日 2024-09-24 05:25:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク