RAMBO: RL-augmented Model-based Optimal Control for Whole-body Loco-manipulation

要約

遺伝子座操作 – オブジェクトとの調整された移動と物理的相互作用 – は、正確な力の相互作用とモデルのダイナミクスに対する堅牢性の両方が必要であるため、足のロボットにとって大きな課題のままです。
モデルベースのコントローラーは、解釈可能なダイナミクスレベルの計画と最適化を提供しますが、モデルの不正確さと計算コストによって制限されます。
対照的に、学習ベースの方法は、相互作用力の正確な変調に苦労しながら、堅牢性を提供します。
RAMBO-A-Gegmented Modelベースの最適制御 – 単純化されたダイナミクスモデルと強化学習で訓練されたフィードバックポリシーを使用してモデルベースの反動力最適化を統合するハイブリッドフレームワークを紹介します。
モデルベースのモジュールは、2次プログラムを解決することによりフィードフォワードトルクを生成しますが、ポリシーは、制御実行の堅牢性を高めるためのフィードバック残差を提供します。
四足動物の両方の両方で、ショッピングカートのプッシュ、プレートのバランス、ソフトオブジェクトを保持するなど、多様な一連の実際のロコ操作タスクを介して、四足動物のロボット上のフレームワークを検証します。
私たちの実験は、ランボが堅牢で動的な移動を達成しながら正確な操作を可能にし、エンドツーエンドスキームで訓練されたポリシーのパフォーマンスを上回ることを示しています。
さらに、この方法により、コンプライアンスを備えたエンドエフェクター追跡精度間の柔軟なトレードオフを可能にします。

要約(オリジナル)

Loco-manipulation — coordinated locomotion and physical interaction with objects — remains a major challenge for legged robots due to the need for both accurate force interaction and robustness to unmodeled dynamics. While model-based controllers provide interpretable dynamics-level planning and optimization, they are limited by model inaccuracies and computational cost. In contrast, learning-based methods offer robustness while struggling with precise modulation of interaction forces. We introduce RAMBO — RL-Augmented Model-Based Optimal Control — a hybrid framework that integrates model-based reaction force optimization using a simplified dynamics model and a feedback policy trained with reinforcement learning. The model-based module generates feedforward torques by solving a quadratic program, while the policy provides feedback residuals to enhance robustness in control execution. We validate our framework on a quadruped robot across a diverse set of real-world loco-manipulation tasks — such as pushing a shopping cart, balancing a plate, and holding soft objects — in both quadrupedal and bipedal walking. Our experiments demonstrate that RAMBO enables precise manipulation while achieving robust and dynamic locomotion, surpassing the performance of policies trained with end-to-end scheme. In addition, our method enables flexible trade-off between end-effector tracking accuracy with compliance.

arxiv情報

著者 Jin Cheng,Dongho Kang,Gabriele Fadini,Guanya Shi,Stelian Coros
発行日 2025-04-09 07:53:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク