要約
ロボット学習では、環境セマンティクスを無視して、ロボットと環境の接触に関する推論のみを必要とする全身コントロールなどのタスクに焦点を当てるか、逆にコンタクトダイナミクスを無視して、ビジョンと言語の高レベルの動きに焦点を当てています。
この作業では、生成モデリング、フォトリアリックなレンダリング、手続き上の生成の進歩により、両方を必要とするタスクに取り組むことができることを示します。
セマンティックダイバースシミュレーションで正確な物理学で接触豊富な軌跡を生成することにより、動作を現実世界に直接転送する大きなマルチモーダルモデルに蒸留することができます。
具体的には、シミュレーションデータのみで微調整された基礎モデルのGeminiは、言語で指示するように指示することができます。
現実世界の結果は、シミュレーションを使用して基礎モデルを物理的な機関に吹き込むという約束を示しています。
ビデオは当社のウェブサイトhttps://sites.google.com/view/proc4gemにあります
要約(オリジナル)
In robot learning, it is common to either ignore the environment semantics, focusing on tasks like whole-body control which only require reasoning about robot-environment contacts, or conversely to ignore contact dynamics, focusing on grounding high-level movement in vision and language. In this work, we show that advances in generative modeling, photorealistic rendering, and procedural generation allow us to tackle tasks requiring both. By generating contact-rich trajectories with accurate physics in semantically-diverse simulations, we can distill behaviors into large multimodal models that directly transfer to the real world: a system we call Proc4Gem. Specifically, we show that a foundation model, Gemini, fine-tuned on only simulation data, can be instructed in language to control a quadruped robot to push an object with its body to unseen targets in unseen real-world environments. Our real-world results demonstrate the promise of using simulation to imbue foundation models with physical agency. Videos can be found at our website: https://sites.google.com/view/proc4gem
arxiv情報
著者 | Yixin Lin,Jan Humplik,Sandy H. Huang,Leonard Hasenclever,Francesco Romano,Stefano Saliceti,Daniel Zheng,Jose Enrique Chen,Catarina Barros,Adrian Collister,Matt Young,Adil Dostmohamed,Ben Moran,Ken Caluwaerts,Marissa Giustina,Joss Moore,Kieran Connell,Francesco Nori,Nicolas Heess,Steven Bohez,Arunkumar Byravan |
発行日 | 2025-03-11 16:29:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google