An Efficient Model-Based Approach on Learning Agile Motor Skills without Reinforcement

要約

学習ベースの手法により、深層強化学習を通じて四足ロボットの移動スキルが向上しました。
ただし、シミュレーションと実際のギャップと低いサンプル効率により、スキルの伝承は依然として制限されています。
この問題に対処するために、世界モデルとポリシー ネットワークを組み合わせた効率的なモデルベースの学習フレームワークを提案します。
私たちは微分可能な世界モデルをトレーニングして将来の状態を予測し、それを使用して変分オートエンコーダー (VAE) ベースのポリシー ネットワークを直接監視して実際の動物の行動を模倣します。
これにより、実際のインタラクション データの必要性が大幅に減り、迅速なポリシー更新が可能になります。
また、さまざまなコマンドや軌跡を追跡するための高レベルのネットワークも開発します。
私たちのシミュレーション結果は、PPO などの強化学習手法と比較してサンプル効率が 10 倍向上していることを示しています。
実際のテストでは、当社のポリシーは、わずか 2 分のデータ収集期間でコマンド追従の優れたパフォーマンスを達成し、新しい速度とパスによく一般化します。

要約(オリジナル)

Learning-based methods have improved locomotion skills of quadruped robots through deep reinforcement learning. However, the sim-to-real gap and low sample efficiency still limit the skill transfer. To address this issue, we propose an efficient model-based learning framework that combines a world model with a policy network. We train a differentiable world model to predict future states and use it to directly supervise a Variational Autoencoder (VAE)-based policy network to imitate real animal behaviors. This significantly reduces the need for real interaction data and allows for rapid policy updates. We also develop a high-level network to track diverse commands and trajectories. Our simulated results show a tenfold sample efficiency increase compared to reinforcement learning methods such as PPO. In real-world testing, our policy achieves proficient command-following performance with only a two-minute data collection period and generalizes well to new speeds and paths.

arxiv情報

著者 Haojie Shi,Tingguang Li,Qingxu Zhu,Jiapeng Sheng,Lei Han,Max Q. -H. Meng
発行日 2024-03-18 09:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク