要約
近年、ヒューマノイドロボットは、環境と人間のような特性に対する適応性が高いため、学界と産業の両方から大きな注目を集めています。
補強学習の急速な進歩により、ヒューマノイドロボットのウォーキングコントロールが大幅に進歩しました。
ただし、既存の方法は、複雑な環境や不規則な地形を扱う際に依然として課題に直面しています。
知覚的な移動の分野では、既存のアプローチは一般に2段階の方法とエンドツーエンドの方法に分割されます。
2段階の方法最初に、シミュレートされた環境で教師ポリシーを訓練し、次にDaggerなどの蒸留技術を使用して、学習した特権情報を学生ポリシーに潜在的な特徴または行動として転送します。
一方、エンドツーエンドの方法は、特権情報の学習を控え、強化学習を通じて部分的に観察可能なマルコフ決定プロセス(POMDP)からポリシーを直接学習します。
ただし、教師ポリシーからの監督が不足しているため、エンドツーエンドの方法はトレーニングの困難に直面し、実際のアプリケーションで不安定なパフォーマンスを示します。
このペーパーでは、学生ポリシーを正規化および監督するために、完全に観察可能なマルコフ決定プロセス(MDP)で学んだ教師ポリシーの利点を組み合わせた革新的な2段階の知覚運動フレームワークを提案します。
同時に、補強学習の特性を活用して、学生ポリシーがPOMDPで学習を続けることができることを保証し、それによってモデルの上限が強化されます。
実験結果は、2段階のトレーニングフレームワークがシミュレートされた環境でより高いトレーニング効率と安定性を達成し、現実世界のアプリケーションでより良い堅牢性と一般化機能を示すことを示しています。
要約(オリジナル)
In recent years, humanoid robots have garnered significant attention from both academia and industry due to their high adaptability to environments and human-like characteristics. With the rapid advancement of reinforcement learning, substantial progress has been made in the walking control of humanoid robots. However, existing methods still face challenges when dealing with complex environments and irregular terrains. In the field of perceptive locomotion, existing approaches are generally divided into two-stage methods and end-to-end methods. Two-stage methods first train a teacher policy in a simulated environment and then use distillation techniques, such as DAgger, to transfer the privileged information learned as latent features or actions to the student policy. End-to-end methods, on the other hand, forgo the learning of privileged information and directly learn policies from a partially observable Markov decision process (POMDP) through reinforcement learning. However, due to the lack of supervision from a teacher policy, end-to-end methods often face difficulties in training and exhibit unstable performance in real-world applications. This paper proposes an innovative two-stage perceptive locomotion framework that combines the advantages of teacher policies learned in a fully observable Markov decision process (MDP) to regularize and supervise the student policy. At the same time, it leverages the characteristics of reinforcement learning to ensure that the student policy can continue to learn in a POMDP, thereby enhancing the model’s upper bound. Our experimental results demonstrate that our two-stage training framework achieves higher training efficiency and stability in simulated environments, while also exhibiting better robustness and generalization capabilities in real-world applications.
arxiv情報
著者 | Qiang Zhang,Gang Han,Jingkai Sun,Wen Zhao,Chenghao Sun,Jiahang Cao,Jiaxu Wang,Yijie Guo,Renjing Xu |
発行日 | 2025-03-11 11:10:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google