Combining Teacher-Student with Representation Learning: A Concurrent Teacher-Student Reinforcement Learning Paradigm for Legged Locomotion

要約

最近のデータ駆動型学習手法の爆発的な発展のおかげで、強化学習 (RL) は、ロボット工学における脚の移動の問題に対処する有望なソリューションとして浮上しています。
この原稿では、現実世界の展開における固有受容測定のみに基づいて、困難な地形での脚移動のための新しい教師と生徒の同時強化学習アーキテクチャを提案します。
RL を介して教師ポリシーをトレーニングし、教師あり学習を通じて知識を生徒ポリシーに転送する従来の教師-生徒アーキテクチャとは異なり、私たちが提案するアーキテクチャは、強化学習パラダイムの下で教師と生徒のポリシー ネットワークを同時にトレーニングします。
これを達成するために、教師のポリシーネットワークと学生のポリシーネットワークの間の相互作用に対応する、従来の近接ポリシー勾配(PPO)法に基づいた新しいトレーニングスキームを開発します。
提案されたアーキテクチャと新しいトレーニング スキームの有効性は、四足歩行ロボットと点足二足歩行ロボットに関する広範な屋内および屋外実験を通じて実証され、困難な地形での堅牢な移動と、2 段階のトレーニング方法と比較してパフォーマンスが向上していることを示しています。

要約(オリジナル)

Thanks to the explosive developments of data-driven learning methodologies recently, reinforcement learning (RL) emerges as a promising solution to address the legged locomotion problem in robotics. In this manuscript, we propose a novel concurrent teacher-student reinforcement learning architecture for legged locomotion over challenging terrains, based only on proprioceptive measurements in real-world deployment. Different from convectional teacher-student architecture that trains the teacher policy via RL and transfers the knowledge to the student policy through supervised learning, our proposed architecture trains teacher and student policy networks concurrently under the reinforcement learning paradigm. To achieve this, we develop a new training scheme based on conventional proximal policy gradient (PPO) method to accommodate the interaction between teacher policy network and student policy network. The effectiveness of the proposed architecture as well as the new training scheme is demonstrated through extensive indoor and outdoor experiments on quadrupedal robots and point-foot bipedal robot, showcasing robust locomotion over challenging terrains and improved performance compared to two-stage training methods.

arxiv情報

著者 Hongxi Wang,Haoxiang Luo,Wei Zhang,Hua Chen
発行日 2024-05-17 14:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Txx, cs.RO, I.2.6 パーマリンク