Real2Render2Real: Scaling Robot Data Without Dynamics Simulation or Robot Hardware

要約

スケーリングロボット学習には、広大で多様なデータセットが必要です。
しかし、一般的なデータ収集パラダイムと人間のテレオ操作は費用がかかり、手動の努力と物理的ロボットアクセスによって制約されています。
Object Dynamicsシミュレーションやロボットハードウェアのテレオ操作に依存せずにロボットトレーニングデータを生成するための新しいアプローチであるReal2Render2Real(R2R2R)を紹介します。
入力は、1つ以上のオブジェクトのスマートフォンに登録されたスキャンと、人間のデモの単一のビデオです。
R2R2Rは、詳細な3Dオブジェクトのジオメトリと外観を再構築し、6-DOFオブジェクトモーションを追跡することにより、数千の視覚的忠実度ロボットと存在のデモンストレーションを何千もレンダリングします。
R2R2Rは、3Dガウスのスプラッティング(3DG)を使用して、剛性オブジェクトと明確なオブジェクトの両方の柔軟な資産生成と軌道合成を有効にし、これらの表現をメッシュに変換して、イサクラブのようなスケーラブルなレンダリングエンジンとの互換性を維持しますが、衝突モデリングを維持します。
R2R2Rによって生成されたロボットデモンストレーションデータは、ロボット固有受容状態や視覚言語アクションモデル(VLA)や模倣学習ポリシーなどの画像観測で動作するモデルと直接統合します。
物理実験では、単一の人間のデモからR2R2Rデータでトレーニングされたモデルが、150の人間の遠隔操作デモンストレーションでトレーニングされたモデルのパフォーマンスと一致することが示唆されています。
プロジェクトページ:https://real2render2real.com

要約(オリジナル)

Scaling robot learning requires vast and diverse datasets. Yet the prevailing data collection paradigm-human teleoperation-remains costly and constrained by manual effort and physical robot access. We introduce Real2Render2Real (R2R2R), a novel approach for generating robot training data without relying on object dynamics simulation or teleoperation of robot hardware. The input is a smartphone-captured scan of one or more objects and a single video of a human demonstration. R2R2R renders thousands of high visual fidelity robot-agnostic demonstrations by reconstructing detailed 3D object geometry and appearance, and tracking 6-DoF object motion. R2R2R uses 3D Gaussian Splatting (3DGS) to enable flexible asset generation and trajectory synthesis for both rigid and articulated objects, converting these representations to meshes to maintain compatibility with scalable rendering engines like IsaacLab but with collision modeling off. Robot demonstration data generated by R2R2R integrates directly with models that operate on robot proprioceptive states and image observations, such as vision-language-action models (VLA) and imitation learning policies. Physical experiments suggest that models trained on R2R2R data from a single human demonstration can match the performance of models trained on 150 human teleoperation demonstrations. Project page: https://real2render2real.com

arxiv情報

著者 Justin Yu,Letian Fu,Huang Huang,Karim El-Refai,Rares Andrei Ambrus,Richard Cheng,Muhammad Zubair Irshad,Ken Goldberg
発行日 2025-05-14 17:50:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク