3D の物理的な現実世界を理解し、ナビゲートし、探索することは、長い間、人工知能の開発における中心的な課題でした。
この研究では、周囲の環境についての事前予測 (期待) を形成する生成的想像力に導かれ、複雑な具体化された世界の探索を計画できるシステムである GenEx を導入することで、この目標に向けて一歩を踏み出します。
GenEx は、単一の RGB 画像から 3D 一貫性のある想像力豊かな環境全体を生成し、パノラマ ビデオ ストリームを通じてその環境に命を吹き込みます。
Unreal Engine から厳選されたスケーラブルな 3D ワールド データを活用して、生成モデルは物理世界で丸められます。
わずかな労力で継続的な 360 度の環境をキャプチャし、AI エージェントが探索して対話できる無限の風景を提供します。
GenEx は、高品質のワールド生成、長い軌跡にわたる堅牢なループの一貫性を実現し、一貫性やアクティブ 3D マッピングなどの強力な 3D 機能を実証します。
GPT 支援エージェントは、世界の生成的想像力を活用して、目標にとらわれない探索と目標主導型ナビゲーションの両方を含む、複雑な具体化されたタスクを実行する機能を備えています。
要約すると、GenEx が想像力豊かな空間で身体化 AI を進化させるための革新的なプラットフォームを提供し、これらの機能を現実世界の探索に拡張する可能性をもたらすことを実証します。
Understanding, navigating, and exploring the 3D physical real world has long been a central challenge in the development of artificial intelligence. In this work, we take a step toward this goal by introducing GenEx, a system capable of planning complex embodied world exploration, guided by its generative imagination that forms priors (expectations) about the surrounding environments. GenEx generates an entire 3D-consistent imaginative environment from as little as a single RGB image, bringing it to life through panoramic video streams. Leveraging scalable 3D world data curated from Unreal Engine, our generative model is rounded in the physical world. It captures a continuous 360-degree environment with little effort, offering a boundless landscape for AI agents to explore and interact with. GenEx achieves high-quality world generation, robust loop consistency over long trajectories, and demonstrates strong 3D capabilities such as consistency and active 3D mapping. Powered by generative imagination of the world, GPT-assisted agents are equipped to perform complex embodied tasks, including both goal-agnostic exploration and goal-driven navigation. These agents utilize predictive expectation regarding unseen parts of the physical world to refine their beliefs, simulate different outcomes based on potential decisions, and make more informed choices. In summary, we demonstrate that GenEx provides a transformative platform for advancing embodied AI in imaginative spaces and brings potential for extending these capabilities to real-world exploration.
著者 | Taiming Lu,Tianmin Shu,Junfei Xiao,Luoxin Ye,Jiahao Wang,Cheng Peng,Chen Wei,Daniel Khashabi,Rama Chellappa,Alan Yuille,Jieneng Chen |
発行日 | 2025-01-20 16:51:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google