PIP-Loco: A Proprioceptive Infinite Horizon Planning Framework for Quadrupedal Robot Locomotion

要約

四足歩行のモデル予測制御 (MPC) の中核的な強みは、制約を強制し、地平線上の一連のコマンドの解釈可能性を提供する機能です。
ただし、MPC は計画ができるにもかかわらず、タスクの複雑さに応じて拡張するのに苦労しており、急速に変化する表面上で堅牢な動作を実現できないことがよくあります。
一方、モデルフリーの強化学習 (RL) 手法は、複数の地形で MPC を上回り、緊急の動きを示しますが、制約を処理したり計画を実行したりする能力が本質的に欠けています。
これらの制限に対処するために、私たちは固有受容計画と RL を統合し、地平線を越​​えた機敏で安全な移動行動を可能にするフレームワークを提案します。
MPC からインスピレーションを得て、速度推定器と Dreamer モジュールを含む内部モデルを組み込みます。
トレーニング中に、フレームワークは共依存する専門ポリシーと内部モデルを学習し、移動動作の改善のための探索を促進します。
展開中に、Dreamer モジュールは無限水平 MPC 問題を解決し、制約を尊重するようにアクションと速度コマンドを適応させます。
私たちは、内部モデルコンポーネントのアブレーション研究を通じてトレーニングフレームワークの堅牢性を検証し、トレーニングノイズに対する堅牢性の向上を実証します。
最後に、シミュレーションとハードウェアの両方で複数の地形シナリオにわたるアプローチを評価します。

要約(オリジナル)

A core strength of Model Predictive Control (MPC) for quadrupedal locomotion has been its ability to enforce constraints and provide interpretability of the sequence of commands over the horizon. However, despite being able to plan, MPC struggles to scale with task complexity, often failing to achieve robust behavior on rapidly changing surfaces. On the other hand, model-free Reinforcement Learning (RL) methods have outperformed MPC on multiple terrains, showing emergent motions but inherently lack any ability to handle constraints or perform planning. To address these limitations, we propose a framework that integrates proprioceptive planning with RL, allowing for agile and safe locomotion behaviors through the horizon. Inspired by MPC, we incorporate an internal model that includes a velocity estimator and a Dreamer module. During training, the framework learns an expert policy and an internal model that are co-dependent, facilitating exploration for improved locomotion behaviors. During deployment, the Dreamer module solves an infinite-horizon MPC problem, adapting actions and velocity commands to respect the constraints. We validate the robustness of our training framework through ablation studies on internal model components and demonstrate improved robustness to training noise. Finally, we evaluate our approach across multi-terrain scenarios in both simulation and hardware.

arxiv情報

著者 Aditya Shirwatkar,Naman Saxena,Kishore Chandra,Shishir Kolathaya
発行日 2024-09-17 08:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク