Enabling Efficient, Reliable Real-World Reinforcement Learning with Approximate Physics-Based Models

要約

私たちは、実世界のデータを使用したロボット学習のための効率的で信頼性の高いポリシー最適化戦略の開発に重点を置いています。
近年、ポリシー勾配法が、シミュレーションで制御ポリシーをトレーニングするための有望なパラダイムとして浮上しています。
ただし、これらのアプローチは、実際のロボット ハードウェアでトレーニングするにはデータ効率が低すぎたり、信頼性が低すぎたりすることがよくあります。
この論文では、(おそらく高度に単純化された)第一原理モデルを体系的に活用し、限られた量の実世界データで正確な制御ポリシーを学習できるようにする、新しいポリシー勾配ベースのポリシー最適化フレームワークを紹介します。
私たちのアプローチ $1)$ は、モデルの導関数を使用してポリシー勾配のサンプル効率の推定値を生成し、 $2)$ はモデルを使用して、ポリシー クラスに組み込まれる低レベルの追跡コントローラーを設計します。
理論分析により、このフィードバック コントローラーの存在がスタンドアロンの政策勾配法の主要な制限をどのように克服するかについての洞察が得られます。一方、小型車と四足歩行車を使ったハードウェア実験では、私たちのアプローチが、わずか数分間の実世界の学習で正確な制御戦略を確実に学習できることが実証されました。
データ。

要約(オリジナル)

We focus on developing efficient and reliable policy optimization strategies for robot learning with real-world data. In recent years, policy gradient methods have emerged as a promising paradigm for training control policies in simulation. However, these approaches often remain too data inefficient or unreliable to train on real robotic hardware. In this paper we introduce a novel policy gradient-based policy optimization framework which systematically leverages a (possibly highly simplified) first-principles model and enables learning precise control policies with limited amounts of real-world data. Our approach $1)$ uses the derivatives of the model to produce sample-efficient estimates of the policy gradient and $2)$ uses the model to design a low-level tracking controller, which is embedded in the policy class. Theoretical analysis provides insight into how the presence of this feedback controller overcomes key limitations of stand-alone policy gradient methods, while hardware experiments with a small car and quadruped demonstrate that our approach can learn precise control strategies reliably and with only minutes of real-world data.

arxiv情報

著者 Tyler Westenbroek,Jacob Levy,David Fridovich-Keil
発行日 2023-11-06 15:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク