End-to-End Multi-Task Policy Learning from NMPC for Quadruped Locomotion

要約

四足ロボットは、車輪付きロボットがしばしば故障する複雑で非構造化されていない環境を横断することに優れています。
ただし、四足動物の非線形ダイナミクス、高度の自由度、およびリアルタイム制御の計算要求により、効率的で適応可能な移動を可能にすることは依然として困難です。
非線形モデル予測制御(NMPC)などの最適化ベースのコントローラーは強力なパフォーマンスを示していますが、正確な状態推定と高い計算オーバーヘッドへの依存により、実際の設定での展開が困難になります。
この作業では、専門家NMPCデモンストレーションを使用して単一のニューラルネットワークをトレーニングするために、生の固有受容センサー入力からの複数の移動行動のアクションを予測するために使用されるマルチタスク学習(MTL)フレームワークを紹介します。
シミュレーションと実際のハードウェアの両方で、四足動物のロボットGO1でアプローチを広範囲に評価し、専門家の行動を正確に再現し、スムーズな歩行スイッチングを可能にし、リアルタイムの展開のためのコントロールパイプラインを簡素化することを実証します。
当社のMTLアーキテクチャにより、統一されたポリシー内で多様な歩行を学習することができ、すべてのタスクで予測された共同ターゲットの高い$ r^{2} $スコアを達成します。

要約(オリジナル)

Quadruped robots excel in traversing complex, unstructured environments where wheeled robots often fail. However, enabling efficient and adaptable locomotion remains challenging due to the quadrupeds’ nonlinear dynamics, high degrees of freedom, and the computational demands of real-time control. Optimization-based controllers, such as Nonlinear Model Predictive Control (NMPC), have shown strong performance, but their reliance on accurate state estimation and high computational overhead makes deployment in real-world settings challenging. In this work, we present a Multi-Task Learning (MTL) framework in which expert NMPC demonstrations are used to train a single neural network to predict actions for multiple locomotion behaviors directly from raw proprioceptive sensor inputs. We evaluate our approach extensively on the quadruped robot Go1, both in simulation and on real hardware, demonstrating that it accurately reproduces expert behavior, allows smooth gait switching, and simplifies the control pipeline for real-time deployment. Our MTL architecture enables learning diverse gaits within a unified policy, achieving high $R^{2}$ scores for predicted joint targets across all tasks.

arxiv情報

著者 Anudeep Sajja,Shahram Khorshidi,Sebastian Houben,Maren Bennewitz
発行日 2025-05-13 13:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク