要約
ロボット学習には、一般化の約束を実現するために、かなりの量の高品質データが必要です。
ただし、大規模なデータセットは、現実の世界で収集するのに費用がかかります。
物理シミュレーターは、州、アクション、環境を幅広くカバーして、膨大なデータセットを安価に生成できます。
ただし、物理エンジンは、基本的に誤って指定された現実の近似です。
これにより、特に正確で力に敏感な操作が必要なタスクで、シミュレーションから現実への直接のゼロショット転送が困難になります。
したがって、これらのポリシーを小さな現実世界のデータセットで微調整することは、ロボット学習をスケーリングするための魅力的な経路です。
ただし、現在の強化学習微調整フレームワークは、実際の適応を実用的にするには非効率的すぎる、一般的な非構造化されていない探索戦略を活用しています。
このペーパーでは、シミュレーションガイド付きの微調整(SGFT)フレームワークを紹介します。これは、物理シミュレータから構造的プライアーを抽出して、実世界の適応を実質的に加速する方法を示しています。
具体的には、私たちのアプローチでは、シミュレーションで学習された値関数を使用して、実際の探索をガイドします。
ゼロショットSIMからリアルへの転送が失敗する5つの実際の器用な操作タスクでこのアプローチを実証します。
さらに、フレームワークがベースラインの微調整方法を大幅に上回ることを実証します。これは、実世界のサンプルを数桁少なくする必要があり、以前のアプローチが完全に失敗する困難なタスクで成功します。
最後になりましたが、SGFTが大規模なSIMからリアルのダイナミクスギャップに直面して高性能ポリシーを迅速に学習する方法を支えるこの新しいパラダイムの理論的正当化を提供します。
プロジェクトWebページ:https://weirdlabuw.github.io/sgft/ {weirdlabuw.github.io/sgft}
要約(オリジナル)
Robot learning requires a considerable amount of high-quality data to realize the promise of generalization. However, large data sets are costly to collect in the real world. Physics simulators can cheaply generate vast data sets with broad coverage over states, actions, and environments. However, physics engines are fundamentally misspecified approximations to reality. This makes direct zero-shot transfer from simulation to reality challenging, especially in tasks where precise and force-sensitive manipulation is necessary. Thus, fine-tuning these policies with small real-world data sets is an appealing pathway for scaling robot learning. However, current reinforcement learning fine-tuning frameworks leverage general, unstructured exploration strategies which are too inefficient to make real-world adaptation practical. This paper introduces the Simulation-Guided Fine-tuning (SGFT) framework, which demonstrates how to extract structural priors from physics simulators to substantially accelerate real-world adaptation. Specifically, our approach uses a value function learned in simulation to guide real-world exploration. We demonstrate this approach across five real-world dexterous manipulation tasks where zero-shot sim-to-real transfer fails. We further demonstrate our framework substantially outperforms baseline fine-tuning methods, requiring up to an order of magnitude fewer real-world samples and succeeding at difficult tasks where prior approaches fail entirely. Last but not least, we provide theoretical justification for this new paradigm which underpins how SGFT can rapidly learn high-performance policies in the face of large sim-to-real dynamics gaps. Project webpage: https://weirdlabuw.github.io/sgft/{weirdlabuw.github.io/sgft}
arxiv情報
著者 | Patrick Yin,Tyler Westenbroek,Simran Bagaria,Kevin Huang,Ching-an Cheng,Andrey Kobolov,Abhishek Gupta |
発行日 | 2025-02-04 20:40:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google