要約
補強学習(RL)ベースの脚の機動コントローラーは、さまざまな地形で滑らかな動きを維持しながら、速度または目標の位置を追跡するために細心の報酬調整を必要とすることがよくあります。
デモデータを使用したRLを介したモーション模倣方法は、報酬エンジニアリングを減らしますが、新しい環境に一般化することはできません。
これに対処し、低レベルのポリシーが最初に事前に訓練され、平らな地面で動物の動きを模倣し、それによって動きの前提を確立する階層RLフレームワークを提案します。
その後、その後の高レベルの目標条件付けされたポリシーは、これらのプライアーに基づいて構築され、知覚的な移動、局所的な障害の回避、および多様および険しい地形にわたる目標指向ナビゲーションを可能にする残留補正を学習します。
シミュレーションの実験は、動きの事前に提供された移動特性を保存しながら、徐々に挑戦的な不均一な地形に適応する際の学習残差の有効性を示しています。
さらに、我々の結果は、同様の報酬セットアップの下でモーションプライアーなしで訓練されたベースラインモデル上の動きの正規化の改善を示しています。
Anymal-D四足動物のロボットを使用した現実世界の実験では、動物のような移動スキルを複雑な地形に一般化するポリシーの能力が確認され、障害のある地形に挑戦する中のスムーズで効率的な移動とローカルナビゲーションパフォーマンスを実証します。
要約(オリジナル)
Reinforcement learning (RL)-based legged locomotion controllers often require meticulous reward tuning to track velocities or goal positions while preserving smooth motion on various terrains. Motion imitation methods via RL using demonstration data reduce reward engineering but fail to generalize to novel environments. We address this by proposing a hierarchical RL framework in which a low-level policy is first pre-trained to imitate animal motions on flat ground, thereby establishing motion priors. A subsequent high-level, goal-conditioned policy then builds on these priors, learning residual corrections that enable perceptive locomotion, local obstacle avoidance, and goal-directed navigation across diverse and rugged terrains. Simulation experiments illustrate the effectiveness of learned residuals in adapting to progressively challenging uneven terrains while still preserving the locomotion characteristics provided by the motion priors. Furthermore, our results demonstrate improvements in motion regularization over baseline models trained without motion priors under similar reward setups. Real-world experiments with an ANYmal-D quadruped robot confirm our policy’s capability to generalize animal-like locomotion skills to complex terrains, demonstrating smooth and efficient locomotion and local navigation performance amidst challenging terrains with obstacles.
arxiv情報
著者 | Zewei Zhang,Chenhao Li,Takahiro Miki,Marco Hutter |
発行日 | 2025-05-21 23:56:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google