StyleLoco: Generative Adversarial Distillation for Natural Humanoid Robot Locomotion

要約

ヒューマノイドロボットは、さまざまな速度や地形にわたる自然な動きを確保しながら、幅広い運動能力を獲得することが期待されています。
既存の方法では、人型の移動を学習する際の基本的なジレンマに遭遇します。手作りの報酬による強化学習は、アジャイルな移動を達成できますが、不自然な歩行を生成しますが、モーションキャプチャデータを備えた生成的敵対的模倣学習(ゲイル)は自然な動きをもたらしますが、不安定なトレーニングプロセスと抑制された俊敏性に苦しみます。
これらのアプローチを統合することは、専門家のポリシーと人間の動きデータセットの間に固有の不均一性のために挑戦的であることがわかります。
これに対処するために、生成的敵対的蒸留(GAD)プロセスを通してこのギャップを埋める新しい2段階のフレームワークであるStylelocoを紹介します。
私たちのフレームワークは、補強学習を使用してアジャイルでダイナミックな移動を達成するために教師ポリシーをトレーニングすることから始まります。
その後、マルチディスクリミネーターアーキテクチャを採用します。このアーキテクチャでは、異なる判別器が教師ポリシーとモーションキャプチャデータの両方からスキルを同時に抽出します。
このアプローチは、強化学習の俊敏性と、敵対的な訓練に一般的に関連する不安定性の問題を軽減しながら、人間のような動きの自然な流動性を効果的に組み合わせています。
広範なシミュレーションと現実世界の実験を通じて、Stylelocoにより、ヒューマノイドロボットが巧みに訓練されたポリシーの精度と人間の動きの自然な美学の精度で多様な移動タスクを実行できることを実証し、さまざまな動きの種類にわたってスタイルを正常に転送しながら、司令型の幅広いスペクトルの幅広いスペクトルにわたって安定した移動を維持します。

要約(オリジナル)

Humanoid robots are anticipated to acquire a wide range of locomotion capabilities while ensuring natural movement across varying speeds and terrains. Existing methods encounter a fundamental dilemma in learning humanoid locomotion: reinforcement learning with handcrafted rewards can achieve agile locomotion but produces unnatural gaits, while Generative Adversarial Imitation Learning (GAIL) with motion capture data yields natural movements but suffers from unstable training processes and restricted agility. Integrating these approaches proves challenging due to the inherent heterogeneity between expert policies and human motion datasets. To address this, we introduce StyleLoco, a novel two-stage framework that bridges this gap through a Generative Adversarial Distillation (GAD) process. Our framework begins by training a teacher policy using reinforcement learning to achieve agile and dynamic locomotion. It then employs a multi-discriminator architecture, where distinct discriminators concurrently extract skills from both the teacher policy and motion capture data. This approach effectively combines the agility of reinforcement learning with the natural fluidity of human-like movements while mitigating the instability issues commonly associated with adversarial training. Through extensive simulation and real-world experiments, we demonstrate that StyleLoco enables humanoid robots to perform diverse locomotion tasks with the precision of expertly trained policies and the natural aesthetics of human motion, successfully transferring styles across different movement types while maintaining stable locomotion across a broad spectrum of command inputs.

arxiv情報

著者 Le Ma,Ziyu Meng,Tengyu Liu,Yuhan Li,Ran Song,Wei Zhang,Siyuan Huang
発行日 2025-03-19 10:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク