要約
ヒューマノイドロボットが単一の再発ポリシー内で立っている、歩行、ランニング、スムーズな移行を実行できるようにする統一された歩行条件の強化学習フレームワークを紹介します。
コンパクトな報酬ルーティングメカニズムは、1ホットの歩行IDに基づいて歩行固有の目的を動的にアクティブにし、報酬の干渉を軽減し、安定したマルチゲート学習をサポートします。
人間に触発された報酬用語は、モーションキャプチャデータを必要とせずに、ストレート膝のスタンスや調整された腕足スイングなどの生体力学的に自然な動きを促進します。
構造化されたカリキュラムは、歩行の複雑さを徐々に導入し、複数のフェーズでコマンドスペースを拡張します。
シミュレーションでは、このポリシーは、堅牢なスタンディング、ウォーキング、ランニング、および歩行の移行を成功裏に達成します。
本物のUnitree G1 Humanoidでは、立っている、歩く、歩き回る移行を検証し、安定した協調的な移動を実証します。
この作業は、多様なモードと環境にわたる多用途で自然主義的なヒューマノイド制御に対するスケーラブルで参照のないソリューションを提供します。
要約(オリジナル)
We present a unified gait-conditioned reinforcement learning framework that enables humanoid robots to perform standing, walking, running, and smooth transitions within a single recurrent policy. A compact reward routing mechanism dynamically activates gait-specific objectives based on a one-hot gait ID, mitigating reward interference and supporting stable multi-gait learning. Human-inspired reward terms promote biomechanically natural motions, such as straight-knee stance and coordinated arm-leg swing, without requiring motion capture data. A structured curriculum progressively introduces gait complexity and expands command space over multiple phases. In simulation, the policy successfully achieves robust standing, walking, running, and gait transitions. On the real Unitree G1 humanoid, we validate standing, walking, and walk-to-stand transitions, demonstrating stable and coordinated locomotion. This work provides a scalable, reference-free solution toward versatile and naturalistic humanoid control across diverse modes and environments.
arxiv情報
著者 | Tianhu Peng,Lingfan Bao,Chengxu Zhou |
発行日 | 2025-06-11 21:34:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google