Evaluation of Constrained Reinforcement Learning Algorithms for Legged Locomotion

要約

脚式ロボットの従来の制御戦略から深層強化学習 (RL) への移行には、特にトレーニング中に現実世界の物理的制約に対処する場合に、固有の課題が生じます。
高忠実度のシミュレーションには大きな利点がありますが、多くの場合、これらの重要な物理的制限が回避されます。
この論文では、ロボット アプリケーション向けに従来の制約なし RL の代わりに制約付きマルコフ決定プロセス (CMDP) フレームワークを実験します。
実際の実装に適した方法を特定するために、さまざまな制約付きポリシー最適化アルゴリズムの比較研究を実行します。
私たちのロボット実験は、物理的制約を組み込み、シミュレーションから現実への転送を成功させ、物理システム上の操作エラーを減らすという重要な役割を実証しています。
CMDP の定式化では、制約と報酬を別々に処理することでトレーニング プロセスを合理化します。
私たちの発見は、ロボット工学における学習型コントローラーの効果的な開発と展開に対する制約付き RL の可能性を強調しています。

要約(オリジナル)

Shifting from traditional control strategies to Deep Reinforcement Learning (RL) for legged robots poses inherent challenges, especially when addressing real-world physical constraints during training. While high-fidelity simulations provide significant benefits, they often bypass these essential physical limitations. In this paper, we experiment with the Constrained Markov Decision Process (CMDP) framework instead of the conventional unconstrained RL for robotic applications. We perform a comparative study of different constrained policy optimization algorithms to identify suitable methods for practical implementation. Our robot experiments demonstrate the critical role of incorporating physical constraints, yielding successful sim-to-real transfers, and reducing operational errors on physical systems. The CMDP formulation streamlines the training process by separately handling constraints from rewards. Our findings underscore the potential of constrained RL for the effective development and deployment of learned controllers in robotics.

arxiv情報

著者 Joonho Lee,Lukas Schroth,Victor Klemm,Marko Bjelonic,Alexander Reske,Marco Hutter
発行日 2023-09-27 06:49:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク