CTS: Concurrent Teacher-Student Reinforcement Learning for Legged Locomotion

要約

近年のデータ駆動型学習手法の爆発的な発展により、強化学習(RL)はロボット工学における脚式ロコモーション問題を解決する有望なソリューションとして浮上している。本論文では、凹凸のある地形での脚式ロコモーションのための新しい並行教師・生徒強化学習アーキテクチャであるCTSを提案する。従来の教師-生徒型アーキテクチャでは、まずRLにより教師ポリシーを学習し、次に教師あり学習により生徒ポリシーに知識を伝達するのに対し、本アーキテクチャでは、強化学習パラダイムの下で、教師と生徒のポリシーネットワークを同時に学習する。この目的のために、我々は、教師政策と生徒政策の両方と環境との相互作用から収集されたデータサンプルを利用する、修正近接政策勾配(PPO)法に基づく新しい学習スキームを開発する。提案アーキテクチャと新しい学習スキームの有効性は、最新のアプローチとの定量的なシミュレーション比較と、4足歩行および点足2足歩行ロボットプラットフォームを用いた屋内および屋外での広範な実験により実証され、頑健で俊敏な運動能力を示す。定量的なシミュレーション比較により、本アプローチは、2段階の教師-生徒と比較して、平均速度追跡誤差を最大20%低減し、盲目的なロコモーションタスクに対処する上で有意に優れていることを示す。ビデオはhttps://clearlab-sustech.github.io/concurrentTS。

要約(オリジナル)

Thanks to recent explosive developments of data-driven learning methodologies, reinforcement learning (RL) emerges as a promising solution to address the legged locomotion problem in robotics. In this paper, we propose CTS, a novel Concurrent Teacher-Student reinforcement learning architecture for legged locomotion over uneven terrains. Different from conventional teacher-student architecture that trains the teacher policy via RL first and then transfers the knowledge to the student policy through supervised learning, our proposed architecture trains teacher and student policy networks concurrently under the reinforcement learning paradigm. To this end, we develop a new training scheme based on a modified proximal policy gradient (PPO) method that exploits data samples collected from the interactions between both the teacher and the student policies with the environment. The effectiveness of the proposed architecture and the new training scheme is demonstrated through substantial quantitative simulation comparisons with the state-of-the-art approaches and extensive indoor and outdoor experiments with quadrupedal and point-foot bipedal robot platforms, showcasing robust and agile locomotion capability. Quantitative simulation comparisons show that our approach reduces the average velocity tracking error by up to 20% compared to the two-stage teacher-student, demonstrating significant superiority in addressing blind locomotion tasks. Videos are available at https://clearlab-sustech.github.io/concurrentTS.

arxiv情報

著者 Hongxi Wang,Haoxiang Luo,Wei Zhang,Hua Chen
発行日 2024-09-01 13:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク