Leveraging Symmetry in RL-based Legged Locomotion Control

要約

モデルフリー強化学習は、困難なロボット制御問題を自律的に解決するための有望なアプローチですが、ロボットの運動学および力学形態の情報がなければ探索の困難に直面します。
対称状態を持つ複数のモダリティの探索が不十分であると、多くの場合、不自然で次善の動作が発生します。
この問題は、結果として生じる非対称で非周期的な動作により、パフォーマンス、堅牢性、実際のハードウェアへの移行性が損なわれる脚式ロボットなど、形態的対称性を持つロボット システムのコンテキストで特に顕著になります。
この課題を軽減するには、対称性を活用して、等変性/不変性制約によるポリシー学習の探索を導き、改善することができます。
この論文では、対称性を組み込むための 2 つのアプローチの有効性を調査します。1 つはネットワーク アーキテクチャを変更して厳密に等変/不変になるようにする方法、もう 1 つはデータ拡張を利用して等変/不変のアクター批評家を近似する方法です。
困難な移動操作および二足歩行タスクにメソッドを実装し、制約のないベースラインと比較します。
厳密に等変なポリシーは、シミュレーションにおけるサンプル効率とタスクのパフォーマンスにおいて他の方法よりも常に優れていることがわかりました。
さらに、対称性を組み込んだアプローチは、より良い歩行品質とより高い堅牢性を示し、実世界の実験でゼロショットで導入することができます。

要約(オリジナル)

Model-free reinforcement learning is a promising approach for autonomously solving challenging robotics control problems, but faces exploration difficulty without information of the robot’s kinematics and dynamics morphology. The under-exploration of multiple modalities with symmetric states leads to behaviors that are often unnatural and sub-optimal. This issue becomes particularly pronounced in the context of robotic systems with morphological symmetries, such as legged robots for which the resulting asymmetric and aperiodic behaviors compromise performance, robustness, and transferability to real hardware. To mitigate this challenge, we can leverage symmetry to guide and improve the exploration in policy learning via equivariance/invariance constraints. In this paper, we investigate the efficacy of two approaches to incorporate symmetry: modifying the network architectures to be strictly equivariant/invariant, and leveraging data augmentation to approximate equivariant/invariant actor-critics. We implement the methods on challenging loco-manipulation and bipedal locomotion tasks and compare with an unconstrained baseline. We find that the strictly equivariant policy consistently outperforms other methods in sample efficiency and task performance in simulation. In addition, symmetry-incorporated approaches exhibit better gait quality, higher robustness and can be deployed zero-shot in real-world experiments.

arxiv情報

著者 Zhi Su,Xiaoyu Huang,Daniel Ordoñez-Apraez,Yunfei Li,Zhongyu Li,Qiayuan Liao,Giulio Turrisi,Massimiliano Pontil,Claudio Semini,Yi Wu,Koushil Sreenath
発行日 2024-03-27 02:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク