要約
ロボット補強学習は、脚のあるロボットの具体化されたポリシーを訓練するための有望なアプローチです。
ただし、ロボットでのリアルタイム学習の計算上の制約は、大きな課題をもたらします。
サンプル効率と新しいオフポリシーアルゴリズムCrossqの最小限の計算オーバーヘッドを利用して、わずか8分間の生のリアルタイムトレーニングで四分流運動を効率的に学習するためのフレームワークを提示します。
2つの制御アーキテクチャを調査します。アジャイル、高速移動のジョイントターゲット位置と、安定した自然な歩行の中央パターンジェネレーターの予測です。
以前の作業は単純なフォワードゲートの学習に焦点を当てていましたが、私たちのフレームワークは、オンラボット学習を全指向性の移動に拡張します。
さまざまな屋内および屋外環境でのアプローチの堅牢性を示しています。
要約(オリジナル)
On-robot Reinforcement Learning is a promising approach to train embodiment-aware policies for legged robots. However, the computational constraints of real-time learning on robots pose a significant challenge. We present a framework for efficiently learning quadruped locomotion in just 8 minutes of raw real-time training utilizing the sample efficiency and minimal computational overhead of the new off-policy algorithm CrossQ. We investigate two control architectures: Predicting joint target positions for agile, high-speed locomotion and Central Pattern Generators for stable, natural gaits. While prior work focused on learning simple forward gaits, our framework extends on-robot learning to omnidirectional locomotion. We demonstrate the robustness of our approach in different indoor and outdoor environments.
arxiv情報
著者 | Nico Bohlinger,Jonathan Kinzel,Daniel Palenicek,Lukasz Antczak,Jan Peters |
発行日 | 2025-03-11 12:32:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google