Benchmarking Model Predictive Control and Reinforcement Learning Based Control for Legged Robot Locomotion in MuJoCo Simulation

要約

モデル予測制御(MPC)と補強学習(RL)は、それぞれが独自の強みを持つ脚のロボットを制御するための2つの顕著な戦略です。
RLは、システムの相互作用を通じて制御ポリシーを学習し、さまざまなシナリオに適応しますが、MPCは事前定義された数学モデルに依存して最適化の問題をリアルタイムで解決します。
それらの広範な使用にもかかわらず、標準化された条件下では直接的な比較分析が不足しています。
この作業は、Mujocoシミュレーション環境内のUnitree Go1四足動物ロボットでMPCおよびRLコントローラーをベンチマークすることにより、このギャップに対処し、一定の速度で歩く標準化されたタスク-Straightに焦点を当てています。
パフォーマンスは、外乱の拒絶、エネルギー効率、地形の適応性に基づいて評価されます。
結果は、RLが障害の取り扱いとエネルギー効率の維持に優れているが、特定の環境に合わせた学習ポリシーに依存しているため、新しい地形への一般化に苦労していることを示しています。
対照的に、MPCは、最適化ベースのアプローチを活用することにより、より大きな摂動からの回復能力の向上を示し、ロボットのジョイント全体で制御努力のバランスの取れた分布を可能にします。
結果は、RLとMPCの両方の利点と制限を明確に理解し、脚のロボットアプリケーションの適切な制御戦略を選択する洞察を提供します。

要約(オリジナル)

Model Predictive Control (MPC) and Reinforcement Learning (RL) are two prominent strategies for controlling legged robots, each with unique strengths. RL learns control policies through system interaction, adapting to various scenarios, whereas MPC relies on a predefined mathematical model to solve optimization problems in real-time. Despite their widespread use, there is a lack of direct comparative analysis under standardized conditions. This work addresses this gap by benchmarking MPC and RL controllers on a Unitree Go1 quadruped robot within the MuJoCo simulation environment, focusing on a standardized task-straight walking at a constant velocity. Performance is evaluated based on disturbance rejection, energy efficiency, and terrain adaptability. The results show that RL excels in handling disturbances and maintaining energy efficiency but struggles with generalization to new terrains due to its dependence on learned policies tailored to specific environments. In contrast, MPC shows enhanced recovery capabilities from larger perturbations by leveraging its optimization-based approach, allowing for a balanced distribution of control efforts across the robot’s joints. The results provide a clear understanding of the advantages and limitations of both RL and MPC, offering insights into selecting an appropriate control strategy for legged robotic applications.

arxiv情報

著者 Shivayogi Akki,Tan Chen
発行日 2025-01-28 00:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク