要約
3Dシーンジェネレーションは、没入型メディア、ロボット工学、自律運転、具体化されたAIなどのアプリケーションのために、空間的に構造化された、意味的に意味のある、および光エアリスティックな環境を合成しようとしています。
手続き上のルールに基づいた初期の方法では、スケーラビリティが提供されましたが、多様性は限られていました。
深い生成モデル(GAN、拡散モデルなど)および3D表現(NERF、3Dガウス)の最近の進歩により、実際のシーン分布の学習、忠実度、多様性、およびビューの一貫性の学習が可能になりました。
拡散モデルのような最近の進歩は、画像またはビデオ統合の問題として生成を再構成することにより、3Dシーンの合成と光リアリズムをブリッジします。
この調査では、最先端のアプローチの体系的な概要を提供し、手続きの生成、ニューラル3Dベースの生成、画像ベースの世代、ビデオベースの世代の4つのパラダイムに整理します。
それらの技術的基盤、トレードオフ、および代表的な結果を分析し、一般的に使用されるデータセット、評価プロトコル、およびダウンストリームアプリケーションをレビューします。
締めくくり、生成能力、3D表現、データと注釈、評価における重要な課題について議論し、より高い忠実度、物理学を意識し、インタラクティブな生成、統一された知覚生成モデルなどの有望な方向を概説します。
このレビューは、3Dシーンの生成における最近の進歩を整理し、生成AI、3Dビジョン、および具体化された知性の交差点での有望な方向を強調しています。
進行中の開発を追跡するために、最新のプロジェクトページを維持しています:https://github.com/hzxie/awesome-3d-scene-generation。
要約(オリジナル)
3D scene generation seeks to synthesize spatially structured, semantically meaningful, and photorealistic environments for applications such as immersive media, robotics, autonomous driving, and embodied AI. Early methods based on procedural rules offered scalability but limited diversity. Recent advances in deep generative models (e.g., GANs, diffusion models) and 3D representations (e.g., NeRF, 3D Gaussians) have enabled the learning of real-world scene distributions, improving fidelity, diversity, and view consistency. Recent advances like diffusion models bridge 3D scene synthesis and photorealism by reframing generation as image or video synthesis problems. This survey provides a systematic overview of state-of-the-art approaches, organizing them into four paradigms: procedural generation, neural 3D-based generation, image-based generation, and video-based generation. We analyze their technical foundations, trade-offs, and representative results, and review commonly used datasets, evaluation protocols, and downstream applications. We conclude by discussing key challenges in generation capacity, 3D representation, data and annotations, and evaluation, and outline promising directions including higher fidelity, physics-aware and interactive generation, and unified perception-generation models. This review organizes recent advances in 3D scene generation and highlights promising directions at the intersection of generative AI, 3D vision, and embodied intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/hzxie/Awesome-3D-Scene-Generation.
arxiv情報
| 著者 | Beichen Wen,Haozhe Xie,Zhaoxi Chen,Fangzhou Hong,Ziwei Liu | 
| 発行日 | 2025-05-08 17:59:54+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
