Grow Your Limits: Continuous Improvement with Real-World RL for Robotic Locomotion

要約

深層強化学習 (RL) により、ロボットは脚を使った移動などの複雑な動作を自律的に習得できるようになります。
ただし、現実世界の RL は、効率、安全性、全体的なトレーニングの安定性に関する制約によって複雑になっており、実際の適用性が制限されています。
我々は、トレーニングの過程でロボットの探索を調整し、柔軟な改善の可能性と集中的で効率的な探索の間のバランスを取るポリシー正則化フレームワークである APRL を紹介します。
APRL を使用すると、四足歩行ロボットは数分以内に現実世界で完全に歩くことを効率的に学習し、以前の作業でパフォーマンスが飽和状態になった場合でもトレーニングを続けることで改善を続けることができます。
私たちは、APRL を使用したトレーニングを継続すると、困難な状況を乗り越える能力が大幅に向上したポリシーが得られ、トレーニングを継続することでダイナミクスの変化に適応できることを実証します。

要約(オリジナル)

Deep reinforcement learning (RL) can enable robots to autonomously acquire complex behaviors, such as legged locomotion. However, RL in the real world is complicated by constraints on efficiency, safety, and overall training stability, which limits its practical applicability. We present APRL, a policy regularization framework that modulates the robot’s exploration over the course of training, striking a balance between flexible improvement potential and focused, efficient exploration. APRL enables a quadrupedal robot to efficiently learn to walk entirely in the real world within minutes and continue to improve with more training where prior work saturates in performance. We demonstrate that continued training with APRL results in a policy that is substantially more capable of navigating challenging situations and is able to adapt to changes in dynamics with continued training.

arxiv情報

著者 Laura Smith,Yunhao Cao,Sergey Levine
発行日 2023-10-26 17:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク