要約
具体化された空間を構築および解釈する生成的ロボティクスファンデーションモデルであるEnerverseを紹介します。
Enerverseは、長期的な推論のためにまばらなコンテキストメモリによって強化された、指示から将来の具体化された空間を予測するために、自動網性ビデオ拡散フレームワークを採用しています。
3Dロボットの世界をモデル化するために、無料のアンカービュー(FAV)を提案します。これは、モーションのあいまいさや環境制約などの課題に対処するための柔軟でタスクに適した視点を提供するマルチビュービデオ表現です。
さらに、生成モデルと4Dガウスのスプラッティングを組み合わせたデータエンジンパイプラインであるEnerverse-Dを提示し、SIMからRealのギャップを減らすために自己強化データループを形成します。
これらの革新を活用して、Enerverseは4Dの世界表現をポリシーヘッド(Enerverse-A)を介して物理的行動に変換し、ロボットがタスク命令を実行できるようにします。
Enerverse-Aは、シミュレーションと現実世界の両方の設定の両方で最先端のパフォーマンスを実現します。
要約(オリジナル)
We introduce EnerVerse, a generative robotics foundation model that constructs and interprets embodied spaces. EnerVerse employs an autoregressive video diffusion framework to predict future embodied spaces from instructions, enhanced by a sparse context memory for long-term reasoning. To model the 3D robotics world, we propose Free Anchor Views (FAVs), a multi-view video representation offering flexible, task-adaptive perspectives to address challenges like motion ambiguity and environmental constraints. Additionally, we present EnerVerse-D, a data engine pipeline combining the generative model with 4D Gaussian Splatting, forming a self-reinforcing data loop to reduce the sim-to-real gap. Leveraging these innovations, EnerVerse translates 4D world representations into physical actions via a policy head (EnerVerse-A), enabling robots to execute task instructions. EnerVerse-A achieves state-of-the-art performance in both simulation and real-world settings.
arxiv情報
著者 | Siyuan Huang,Liliang Chen,Pengfei Zhou,Shengcong Chen,Zhengkai Jiang,Yue Hu,Yue Liao,Peng Gao,Hongsheng Li,Maoqing Yao,Guanghui Ren |
発行日 | 2025-02-10 13:36:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google