要約
我々は、ロボット操作タスクのために特別に設計された、具現化された未来空間生成のための包括的なフレームワークであるEnerVerseを紹介する。EnerVerseは、内部チャンク空間モデリングのための畳み込みと双方向の注意メカニズムをシームレスに統合し、低レベルの一貫性と連続性を確保する。ビデオデータに内在する冗長性を認識し、チャンク単位の単方向生成パラダイムと組み合わせたスパースメモリコンテキストを提案し、無限に長いシーケンスの生成を可能にする。ロボット能力をさらに増強するために、観察と分析を強化する柔軟な視点を提供するフリーアンカービュー(FAV)空間を導入する。FAV空間はモーションモデリングの曖昧さを緩和し、限られた環境における物理的制約を取り除き、様々なタスクや環境におけるロボットの汎用性と適応性を大幅に向上させる。マルチカメラ観測を取得するための法外なコストと労働強度に対処するために、我々は、生成モデルと4Dガウススプラッティング(4DGS)を統合したデータエンジンパイプラインを提示する。このパイプラインは、生成モデルのロバストな汎化能力と、4DGSによって提供される空間的制約を活用し、データの質と多様性を反復的に向上させることを可能にすることで、シミュレーションとリアルのギャップを効果的に縮めるデータフライホイール効果を生み出す。最後に、我々の実験では、具現化された未来空間生成の事前処理が、ポリシーの予測能力を大幅に向上させ、特に長距離ロボット操作タスクにおいて、全体的なパフォーマンスの向上をもたらすことが実証された。
要約(オリジナル)
We introduce EnerVerse, a comprehensive framework for embodied future space generation specifically designed for robotic manipulation tasks. EnerVerse seamlessly integrates convolutional and bidirectional attention mechanisms for inner-chunk space modeling, ensuring low-level consistency and continuity. Recognizing the inherent redundancy in video data, we propose a sparse memory context combined with a chunkwise unidirectional generative paradigm to enable the generation of infinitely long sequences. To further augment robotic capabilities, we introduce the Free Anchor View (FAV) space, which provides flexible perspectives to enhance observation and analysis. The FAV space mitigates motion modeling ambiguity, removes physical constraints in confined environments, and significantly improves the robot’s generalization and adaptability across various tasks and settings. To address the prohibitive costs and labor intensity of acquiring multi-camera observations, we present a data engine pipeline that integrates a generative model with 4D Gaussian Splatting (4DGS). This pipeline leverages the generative model’s robust generalization capabilities and the spatial constraints provided by 4DGS, enabling an iterative enhancement of data quality and diversity, thus creating a data flywheel effect that effectively narrows the sim-to-real gap. Finally, our experiments demonstrate that the embodied future space generation prior substantially enhances policy predictive capabilities, resulting in improved overall performance, particularly in long-range robotic manipulation tasks.
arxiv情報
著者 | Siyuan Huang,Liliang Chen,Pengfei Zhou,Shengcong Chen,Zhengkai Jiang,Yue Hu,Peng Gao,Hongsheng Li,Maoqing Yao,Guanghui Ren |
発行日 | 2025-01-03 17:00:33+00:00 |
arxivサイト | arxiv_id(pdf) |