Leveraging Symmetry in RL-based Legged Locomotion Control

要約

モデルフリーの強化学習は、挑戦的なロボット制御制御の問題を自律的に解決するための有望なアプローチですが、ロボットの運動学とダイナミクスの形態の情報なしに探索の難しさに直面しています。
対称状態を備えた複数のモダリティの普及不足は、しばしば不自然で亜最適である行動につながります。
この問題は、結果として生じる非対称および非周期的行動がパフォーマンス、堅牢性、および実際のハードウェアへの転送可能性を損なう脚のロボットなど、形態学的対称性を備えたロボットシステムのコンテキストで特に顕著になります。
この課題を緩和するために、対称性を活用して、等語/不変性の制約を介して政策学習の探求を導き、改善することができます。
この論文では、対称性を組み込むための2つのアプローチの有効性を調査します。ネットワークアーキテクチャを厳密に等しい/不変にするように変更し、データの増強を活用して、等間/不均一なアクタークリティクスを近似します。
挑戦的な局所操作と二足歩行の移動タスクに関する方法を実装し、制約のないベースラインと比較します。
厳密に等しいポリシーは、シミュレーションのサンプル効率とタスクパフォ​​ーマンスの他の方法よりも一貫して優れていることがわかります。
さらに、対称性に組み込まれたアプローチは、より良い歩行品質、より高い堅牢性を示し、実際の実験でゼロショットを展開できます。

要約(オリジナル)

Model-free reinforcement learning is a promising approach for autonomously solving challenging robotics control problems, but faces exploration difficulty without information of the robot’s kinematics and dynamics morphology. The under-exploration of multiple modalities with symmetric states leads to behaviors that are often unnatural and sub-optimal. This issue becomes particularly pronounced in the context of robotic systems with morphological symmetries, such as legged robots for which the resulting asymmetric and aperiodic behaviors compromise performance, robustness, and transferability to real hardware. To mitigate this challenge, we can leverage symmetry to guide and improve the exploration in policy learning via equivariance/invariance constraints. In this paper, we investigate the efficacy of two approaches to incorporate symmetry: modifying the network architectures to be strictly equivariant/invariant, and leveraging data augmentation to approximate equivariant/invariant actor-critics. We implement the methods on challenging loco-manipulation and bipedal locomotion tasks and compare with an unconstrained baseline. We find that the strictly equivariant policy consistently outperforms other methods in sample efficiency and task performance in simulation. In addition, symmetry-incorporated approaches exhibit better gait quality, higher robustness and can be deployed zero-shot in real-world experiments.

arxiv情報

著者 Zhi Su,Xiaoyu Huang,Daniel Ordoñez-Apraez,Yunfei Li,Zhongyu Li,Qiayuan Liao,Giulio Turrisi,Massimiliano Pontil,Claudio Semini,Yi Wu,Koushil Sreenath
発行日 2025-03-11 12:43:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク