Empirical Analysis of Sim-and-Real Cotraining Of Diffusion Policies For Planar Pushing from Pixels

要約

ロボット工学の模倣学習では、シミュレーションと実際のハードウェアの両方で生成されたデモデータを共有することが、SIM2realギャップを克服するための強力なレシピとして浮上しています。
この作業は、シミュレーションの設計、SIMとリアルのデータセット作成、およびポリシートレーニングの情報を提供するために、このSim-and-Real Cotrainingの基本原則を解明しようとしています。
カメラの入力からプラングする平面の標準的なタスクに狭く焦点を当てることにより、私たちは私たちの研究で徹底的になることができました。
これらの実験では、特に実際のデータが制限されている場合、シミュレートされたデータを使用した共同\ emph {can}が実際のパフォーマンスを劇的に改善することが確認されています。
パフォーマンスはシミュレートされたデータを使用してスケールを獲得しますが、最終的にはプラトーになります。
実際のデータは、このパフォーマンスの上限を増やします。
また、結果は、物理学のドメインギャップを減らすことが、非摂取操作タスクの視覚的忠実度よりも重要である可能性があることを示唆しています。
おそらく驚くべきことに、いくつかの視覚的なドメインギャップを持つことは、実際には同時化されたポリシーに役立ちます。バイナリプローブは、高性能のポリシーがシミュレートされたドメインを実際と区別することを学ぶことを明らかにしています。
私たちは、SIMとリアルの間の肯定的な移動を促進するこのニュアンスとメカニズムを調査することで結論付けます。
合計で、私たちの実験は、40を超える実世界のポリシー(800以上の試験で評価)と200のシミュレートされたポリシー(40,000以上の試験で評価)に及びます。

要約(オリジナル)

In imitation learning for robotics, cotraining with demonstration data generated both in simulation and on real hardware has emerged as a powerful recipe to overcome the sim2real gap. This work seeks to elucidate basic principles of this sim-and-real cotraining to help inform simulation design, sim-and-real dataset creation, and policy training. Focusing narrowly on the canonical task of planar pushing from camera inputs enabled us to be thorough in our study. These experiments confirm that cotraining with simulated data \emph{can} dramatically improve performance in real, especially when real data is limited. Performance gains scale with simulated data, but eventually plateau; real-world data increases this performance ceiling. The results also suggest that reducing the domain gap in physics may be more important than visual fidelity for non-prehensile manipulation tasks. Perhaps surprisingly, having some visual domain gap actually helps the cotrained policy — binary probes reveal that high-performing policies learn to distinguish simulated domains from real. We conclude by investigating this nuance and mechanisms that facilitate positive transfer between sim-and-real. In total, our experiments span over 40 real-world policies (evaluated on 800+ trials) and 200 simulated policies (evaluated on 40,000+ trials).

arxiv情報

著者 Adam Wei,Abhinav Agarwal,Boyuan Chen,Rohan Bosworth,Nicholas Pfaff,Russ Tedrake
発行日 2025-03-28 17:25:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク