PIP-Loco: A Proprioceptive Infinite Horizon Planning Framework for Quadrupedal Robot Locomotion

要約

四足動物の移動のモデル予測制御(MPC)のコア強度は、制約を強制し、地平線上の一連のコマンドの解釈可能性を提供する能力でした。
ただし、計画ができるにもかかわらず、MPCはタスクの複雑さでスケーリングするのに苦労しており、急速に変化する表面で堅牢な動作を達成できないことがよくあります。
一方、モデルフリーの強化学習(RL)メソッドは、複数の地形でMPCを上回り、緊急の動きを示していますが、本質的に制約を処理したり、計画を実行する能力がありません。
これらの制限に対処するために、固有受容計画をRLと統合するフレームワークを提案し、地平線を通してアジャイルで安全な運動行動を可能にします。
MPCに触発されて、速度推定器とDreamerモジュールを含む内部モデルを組み込みます。
トレーニング中、フレームワークは、専門家のポリシーと、配置された運動行動の改善のための調査を促進する共依存の内部モデルを学習します。
展開中、Dreamerモジュールは、制約を尊重するためにアクションと速度コマンドを適応させ、無限のホリゾンMPC問題を解決します。
内部モデルコンポーネントに関するアブレーション研究を通じて、トレーニングフレームワークの堅牢性を検証し、トレーニングノイズに対する堅牢性の改善を示します。
最後に、シミュレーションとハードウェアの両方で、マルチテレインシナリオ全体でアプローチを評価します。

要約(オリジナル)

A core strength of Model Predictive Control (MPC) for quadrupedal locomotion has been its ability to enforce constraints and provide interpretability of the sequence of commands over the horizon. However, despite being able to plan, MPC struggles to scale with task complexity, often failing to achieve robust behavior on rapidly changing surfaces. On the other hand, model-free Reinforcement Learning (RL) methods have outperformed MPC on multiple terrains, showing emergent motions but inherently lack any ability to handle constraints or perform planning. To address these limitations, we propose a framework that integrates proprioceptive planning with RL, allowing for agile and safe locomotion behaviors through the horizon. Inspired by MPC, we incorporate an internal model that includes a velocity estimator and a Dreamer module. During training, the framework learns an expert policy and an internal model that are co-dependent, facilitating exploration for improved locomotion behaviors. During deployment, the Dreamer module solves an infinite-horizon MPC problem, adapting actions and velocity commands to respect the constraints. We validate the robustness of our training framework through ablation studies on internal model components and demonstrate improved robustness to training noise. Finally, we evaluate our approach across multi-terrain scenarios in both simulation and hardware.

arxiv情報

著者 Aditya Shirwatkar,Naman Saxena,Kishore Chandra,Shishir Kolathaya
発行日 2025-04-15 13:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク