GenXD: Generating Any 3D and 4D Scenes

要約

近年の2D映像生成の発展は目覚ましい。しかし、3Dや4Dの生成は、大規模な4Dデータや効果的なモデル設計の不足のため、実世界のアプリケーションでは依然として困難である。本論文では、日常生活でよく観察されるカメラと物体の動きを活用することで、一般的な3Dおよび4D生成を共同で研究することを提案する。実世界の4Dデータが不足しているため、我々はまず、動画からカメラのポーズと物体の動きの強さを取得するためのデータキュレーションパイプラインを提案する。このパイプラインに基づいて、大規模な実世界4Dシーンデータセットを紹介する:CamVid-30K。全ての3Dと4Dデータを活用することで、我々はGenXDというフレームワークを開発し、あらゆる3Dや4Dシーンを生成することを可能にする。我々は、3Dと4Dの両方のデータからシームレスに学習するために、カメラとオブジェクトの動きを分離する多視点-時空間モジュールを提案する。さらに、GenXDは様々な条件付けビューをサポートするためにマスクされた潜在条件を採用する。GenXDは、カメラの軌跡に沿ったビデオや、3D表現に持ち上げることができる一貫した3Dビューを生成することができる。我々は様々な実世界と合成データセットで広範な評価を行い、3Dと4D生成における従来の手法と比較して、GenXDの有効性と汎用性を実証する。

要約(オリジナル)

Recent developments in 2D visual generation have been remarkably successful. However, 3D and 4D generation remain challenging in real-world applications due to the lack of large-scale 4D data and effective model design. In this paper, we propose to jointly investigate general 3D and 4D generation by leveraging camera and object movements commonly observed in daily life. Due to the lack of real-world 4D data in the community, we first propose a data curation pipeline to obtain camera poses and object motion strength from videos. Based on this pipeline, we introduce a large-scale real-world 4D scene dataset: CamVid-30K. By leveraging all the 3D and 4D data, we develop our framework, GenXD, which allows us to produce any 3D or 4D scene. We propose multiview-temporal modules, which disentangle camera and object movements, to seamlessly learn from both 3D and 4D data. Additionally, GenXD employs masked latent conditions to support a variety of conditioning views. GenXD can generate videos that follow the camera trajectory as well as consistent 3D views that can be lifted into 3D representations. We perform extensive evaluations across various real-world and synthetic datasets, demonstrating GenXD’s effectiveness and versatility compared to previous methods in 3D and 4D generation.

arxiv情報

著者 Yuyang Zhao,Chung-Ching Lin,Kevin Lin,Zhiwen Yan,Linjie Li,Zhengyuan Yang,Jianfeng Wang,Gim Hee Lee,Lijuan Wang
発行日 2024-11-04 17:45:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク