One Policy to Run Them All: an End-to-end Learning Approach to Multi-Embodiment Locomotion

要約

深い補強学習技術は、堅牢な脚の移動で最先端の結果を達成しています。
四角形、ヒューマノイド、六角形などの多種多様な足のプラットフォームが存在しますが、この異なる実施形態をすべて容易かつ効果的に制御できる単一の学習フレームワークが依然として欠落しています。
このギャップを埋めるために、Unified Robotの形態アーキテクチャであるUrmaを紹介します。
私たちのフレームワークは、脚のあるロボットの領域にエンドツーエンドのマルチタスク強化学習アプローチをもたらし、学習ポリシーがあらゆるタイプのロボット形態を制御できるようにします。
私たちの方法の重要なアイデアは、形態と存在するエンコーダとデコーダーのおかげで、実施形態の間でシームレスに共有できる抽象的な移動コントローラーをネットワークが学習できるようにすることです。
この柔軟なアーキテクチャは、脚のあるロボット移動の基礎モデルを構築する際の潜在的な第一歩と見なすことができます。
私たちの実験は、URMAがシミュレーションと現実世界で目に見えないロボットプラットフォームに簡単に転送できる複数の実施形態に関する移動政策を学ぶことができることを示しています。

要約(オリジナル)

Deep Reinforcement Learning techniques are achieving state-of-the-art results in robust legged locomotion. While there exists a wide variety of legged platforms such as quadruped, humanoids, and hexapods, the field is still missing a single learning framework that can control all these different embodiments easily and effectively and possibly transfer, zero or few-shot, to unseen robot embodiments. We introduce URMA, the Unified Robot Morphology Architecture, to close this gap. Our framework brings the end-to-end Multi-Task Reinforcement Learning approach to the realm of legged robots, enabling the learned policy to control any type of robot morphology. The key idea of our method is to allow the network to learn an abstract locomotion controller that can be seamlessly shared between embodiments thanks to our morphology-agnostic encoders and decoders. This flexible architecture can be seen as a potential first step in building a foundation model for legged robot locomotion. Our experiments show that URMA can learn a locomotion policy on multiple embodiments that can be easily transferred to unseen robot platforms in simulation and the real world.

arxiv情報

著者 Nico Bohlinger,Grzegorz Czechmanowski,Maciej Krupka,Piotr Kicki,Krzysztof Walas,Jan Peters,Davide Tateo
発行日 2025-04-01 15:17:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク