要約
既存の動的シーン生成手法は主に、事前トレーニングされた 3D 生成モデルからの知識の抽出に依存しており、通常は合成オブジェクト データセットに基づいて微調整されます。
その結果、生成されるシーンは多くの場合オブジェクト中心となり、フォトリアリズムに欠けます。
これらの制限に対処するために、フォトリアリスティックなテキストから 4D シーンの生成用に設計された新しいパイプラインを導入し、マルチビュー生成モデルへの依存を破棄し、代わりに現実世界の多様なデータセットでトレーニングされたビデオ生成モデルを完全に利用します。
私たちの方法は、ビデオ生成モデルを使用して参照ビデオを生成することから始まります。
次に、参照ビデオから精巧に生成されたフリーズ時間ビデオを使用して、ビデオの標準 3D 表現を学習します。
フリーズ時のビデオの不一致に対処するために、フレームごとの変形を共同で学習して、これらの不完全性をモデル化します。
次に、基準ビデオ内の動的なインタラクションをキャプチャするために、正準表現に基づいて時間的変形を学習します。
このパイプラインは、フォトリアリズムと構造的完全性が強化され、複数の視点から表示できる動的シーンの生成を容易にし、それによって 4D シーン生成の新しい標準を確立します。
要約(オリジナル)
Existing dynamic scene generation methods mostly rely on distilling knowledge from pre-trained 3D generative models, which are typically fine-tuned on synthetic object datasets. As a result, the generated scenes are often object-centric and lack photorealism. To address these limitations, we introduce a novel pipeline designed for photorealistic text-to-4D scene generation, discarding the dependency on multi-view generative models and instead fully utilizing video generative models trained on diverse real-world datasets. Our method begins by generating a reference video using the video generation model. We then learn the canonical 3D representation of the video using a freeze-time video, delicately generated from the reference video. To handle inconsistencies in the freeze-time video, we jointly learn a per-frame deformation to model these imperfections. We then learn the temporal deformation based on the canonical representation to capture dynamic interactions in the reference video. The pipeline facilitates the generation of dynamic scenes with enhanced photorealism and structural integrity, viewable from multiple perspectives, thereby setting a new standard in 4D scene generation.
arxiv情報
著者 | Heng Yu,Chaoyang Wang,Peiye Zhuang,Willi Menapace,Aliaksandr Siarohin,Junli Cao,Laszlo A Jeni,Sergey Tulyakov,Hsin-Ying Lee |
発行日 | 2024-06-11 17:19:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google