One Policy to Run Them All: an End-to-end Learning Approach to Multi-Embodiment Locomotion

要約

ディープ強化学習技術は、ロバストな脚式ロコモーションにおいて最先端の成果を達成しつつある。四足歩行、ヒューマノイド、ヘキサポッドなど、多種多様な脚プラットフォームが存在する一方で、この分野には、これらすべての異なる形態を簡単かつ効果的に制御でき、未知のロボット形態にゼロまたは少数ショットで移行できる可能性のある単一の学習フレームワークがまだ欠けている。このギャップを埋めるために、我々はURMA(Unified Robot Morphology Architecture)を導入する。我々のフレームワークは、エンドツーエンドのマルチタスク強化学習アプローチを脚式ロボットの領域に持ち込み、学習された方針があらゆるタイプのロボット形態を制御することを可能にする。我々の手法の重要なアイデアは、形態にとらわれないエンコーダとデコーダにより、ネットワークが抽象的なロコモーションコントローラを学習し、それを実施形態間でシームレスに共有できるようにすることである。この柔軟なアーキテクチャは、脚式ロボットのロコモーションの基礎モデルを構築するための第一歩となる可能性があります。我々の実験によれば、URMAは複数の実施形態でロコモーション方針を学習することができ、シミュレーションや実世界の未知のロボットプラットフォームに容易に移行することができる。

要約(オリジナル)

Deep Reinforcement Learning techniques are achieving state-of-the-art results in robust legged locomotion. While there exists a wide variety of legged platforms such as quadruped, humanoids, and hexapods, the field is still missing a single learning framework that can control all these different embodiments easily and effectively and possibly transfer, zero or few-shot, to unseen robot embodiments. We introduce URMA, the Unified Robot Morphology Architecture, to close this gap. Our framework brings the end-to-end Multi-Task Reinforcement Learning approach to the realm of legged robots, enabling the learned policy to control any type of robot morphology. The key idea of our method is to allow the network to learn an abstract locomotion controller that can be seamlessly shared between embodiments thanks to our morphology-agnostic encoders and decoders. This flexible architecture can be seen as a potential first step in building a foundation model for legged robot locomotion. Our experiments show that URMA can learn a locomotion policy on multiple embodiments that can be easily transferred to unseen robot platforms in simulation and the real world.

arxiv情報

著者 Nico Bohlinger,Grzegorz Czechmanowski,Maciej Krupka,Piotr Kicki,Krzysztof Walas,Jan Peters,Davide Tateo
発行日 2024-10-04 14:56:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク