Constrained Skill Discovery: Quadruped Locomotion with Unsupervised Reinforcement Learning

要約

表現学習と教師なしスキル発見により、ロボットはタスク固有の報酬を必要とせずに、多様で再利用可能な動作を獲得できるようになります。
この研究では、教師なし強化学習を使用して、距離制約を受けるスキルと状態の間の相互情報を最大化することで潜在表現を学習します。
私たちの方法は、潜在遷移の最大化をノルムマッチング目標に置き換えることにより、以前の制約付きスキル発見方法を改善します。
これにより、ベースライン手法と比較して状態空間の範囲がより豊富になるだけでなく、ロボットがより安定して制御が容易な機関車の動作を学習できるようになります。
学習したポリシーを実際の ANYmal 四足ロボットに展開することに成功し、固有のスキル発見と標準の正則化報酬のみを使用して、ロボットがゼロショット方式でデカルト状態空間の任意の点に正確に到達できることを実証しました。

要約(オリジナル)

Representation learning and unsupervised skill discovery can allow robots to acquire diverse and reusable behaviors without the need for task-specific rewards. In this work, we use unsupervised reinforcement learning to learn a latent representation by maximizing the mutual information between skills and states subject to a distance constraint. Our method improves upon prior constrained skill discovery methods by replacing the latent transition maximization with a norm-matching objective. This not only results in a much a richer state space coverage compared to baseline methods, but allows the robot to learn more stable and easily controllable locomotive behaviors. We successfully deploy the learned policy on a real ANYmal quadruped robot and demonstrate that the robot can accurately reach arbitrary points of the Cartesian state space in a zero-shot manner, using only an intrinsic skill discovery and standard regularization rewards.

arxiv情報

著者 Vassil Atanassov,Wanming Yu,Alexander Luis Mitchell,Mark Nicholas Finean,Ioannis Havoutis
発行日 2024-10-10 12:49:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク