要約
強化学習(Reinforcement Learning: RL)に基づくロコモーション制御は、困難な地形を横断する盲目的な四足歩行ロボットを容易にするために数多く設計されている。しかしながら,予期せぬ外乱の中で様々な地形を移動する四足歩行ロボットにとって,運動制御は依然として困難な課題である.近年、教師-生徒型のアーキテクチャに基づき、様々な地形において信頼性が高くロバストな四足歩行運動を学習する特権学習が採用されている。しかし、1つのエンコーダ構造では、外力の擾乱に対応することができません。このため、教師エンコーダと生徒エンコーダの間の特徴埋込みの不一致により、生徒ポリシーの性能劣化が避けられない。そこで本論文では、様々な外乱に対してロバストで信頼性の高い四足歩行運動のために、複数の特徴エンコーダと残差政策ネットワークを用いた特権学習フレームワークを提案する。マルチエンコーダ構造は、異なる特権情報から潜在的特徴を切り離すことができ、最終的にロバスト性、安定性、信頼性の点で学習されたポリシーの性能を向上させる。提案する特徴エンコーディングモジュールの効率性を、広範なシミュレーションデータを用いて詳細に分析する。残差ポリシーネットワークの導入は、教師ポリシーの振る舞いを複製しようとする生徒ポリシーが経験する性能劣化を緩和するのに役立つ。提案フレームワークはUnitree GO1ロボットで評価され、様々な地形で行われた広範な実験を通して、最先端の特権学習アルゴリズムに対する性能向上を示す。また、残差ポリシーネットワークの効率性を示すために、アブレーション研究を行う。
要約(オリジナル)
Numerous locomotion controllers have been designed based on Reinforcement Learning (RL) to facilitate blind quadrupedal locomotion traversing challenging terrains. Nevertheless, locomotion control is still a challenging task for quadruped robots traversing diverse terrains amidst unforeseen disturbances. Recently, privileged learning has been employed to learn reliable and robust quadrupedal locomotion over various terrains based on a teacher-student architecture. However, its one-encoder structure is not adequate in addressing external force perturbations. The student policy would experience inevitable performance degradation due to the feature embedding discrepancy between the feature encoder of the teacher policy and the one of the student policy. Hence, this paper presents a privileged learning framework with multiple feature encoders and a residual policy network for robust and reliable quadruped locomotion subject to various external perturbations. The multi-encoder structure can decouple latent features from different privileged information, ultimately leading to enhanced performance of the learned policy in terms of robustness, stability, and reliability. The efficiency of the proposed feature encoding module is analyzed in depth using extensive simulation data. The introduction of the residual policy network helps mitigate the performance degradation experienced by the student policy that attempts to clone the behaviors of a teacher policy. The proposed framework is evaluated on a Unitree GO1 robot, showcasing its performance enhancement over the state-of-the-art privileged learning algorithm through extensive experiments conducted on diverse terrains. Ablation studies are conducted to illustrate the efficiency of the residual policy network.
arxiv情報
| 著者 | Zhiyuan Xiao,Xinyu Zhang,Xiang Zhou,Qingrui Zhang | 
| 発行日 | 2024-07-05 02:37:32+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
