Learning to Walk from Three Minutes of Real-World Data with Semi-structured Dynamics Models

要約

従来、モデルベース強化学習 (MBRL) 手法は、$\textit{a Priori}$ 未知の環境ダイナミクスを表現する柔軟な関数近似器としてニューラル ネットワークを活用しています。
ただし、実際にはトレーニング データは通常不足しており、これらのブラックボックス モデルは一般化できないことがよくあります。
既知の物理学を活用したモデリング アーキテクチャは、システム識別の複雑さを大幅に軽減できますが、接触などの複雑な現象に直面すると機能不全に陥ります。
構造化第一原理モデリング技術とブラックボックス自己回帰モデルをシームレスに統合する、接触の多いシステムの半構造化ダイナミクスモデルを学習するための新しいフレームワークを紹介します。
具体的には、過去の観察と行動に基づいて外力を推定するための確率モデルのアンサンブルを開発し、既知のラグランジュ力学を使用してこれらの予測を統合します。
この半構造化アプローチを使用すると、従来の方法よりも大幅に少ないデータで正確な長期予測を行うことができます。
私たちはこの機能を活用し、実世界の学習におけるサンプルの複雑さの限界を押し上げる、シンプルなモデルベースの学習フレームワークである半構造強化学習 ($\texttt{SSRL}$) を提案します。
私たちは、現実世界の Unitree Go1 四足歩行ロボットでアプローチを検証し、わずか数分間の実世界データを使用して、硬い表面と柔らかい表面の両方で動的な歩行をゼロから学習します。
ビデオとコードは https://sites.google.com/utexas.edu/ssrl から入手できます。

要約(オリジナル)

Traditionally, model-based reinforcement learning (MBRL) methods exploit neural networks as flexible function approximators to represent $\textit{a priori}$ unknown environment dynamics. However, training data are typically scarce in practice, and these black-box models often fail to generalize. Modeling architectures that leverage known physics can substantially reduce the complexity of system-identification, but break down in the face of complex phenomena such as contact. We introduce a novel framework for learning semi-structured dynamics models for contact-rich systems which seamlessly integrates structured first principles modeling techniques with black-box auto-regressive models. Specifically, we develop an ensemble of probabilistic models to estimate external forces, conditioned on historical observations and actions, and integrate these predictions using known Lagrangian dynamics. With this semi-structured approach, we can make accurate long-horizon predictions with substantially less data than prior methods. We leverage this capability and propose Semi-Structured Reinforcement Learning ($\texttt{SSRL}$) a simple model-based learning framework which pushes the sample complexity boundary for real-world learning. We validate our approach on a real-world Unitree Go1 quadruped robot, learning dynamic gaits — from scratch — on both hard and soft surfaces with just a few minutes of real-world data. Video and code are available at: https://sites.google.com/utexas.edu/ssrl

arxiv情報

著者 Jacob Levy,Tyler Westenbroek,David Fridovich-Keil
発行日 2024-10-28 17:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, math.OC パーマリンク