要約
拡散モデルの最近の進歩は 2D および 3D コンテンツの作成に革命をもたらしましたが、フォトリアリスティックなダイナミック 4D シーンを生成することは依然として大きな課題です。
既存の動的 4D 生成手法は通常、事前トレーニングされた 3D 生成モデルから抽出した知識に依存しており、多くの場合、合成オブジェクト データセットで微調整されています。
その結果、得られるシーンはオブジェクト中心になり、フォトリアリズムに欠ける傾向があります。
テキストからビデオへのモデルは、動きのあるより現実的なシーンを生成できますが、多くの場合、空間の理解に苦労し、レンダリング中にカメラの視点の制御が制限されます。
これらの制限に対処するために、我々は、従来のマルチビュー生成モデルから離れ、現実世界の多様なデータセットでトレーニングされたビデオ生成モデルを利用する合理化されたアーキテクチャを支持する、新しいテキストから 4D シーン生成フレームワークである PaintScene4D を紹介します。
私たちの方法では、最初にビデオ生成モデルを使用して参照ビデオを生成し、次にレンダリングのために戦略的なカメラ アレイの選択を採用します。
プログレッシブワーピングおよび修復技術を適用して、複数の視点間で空間的および時間的一貫性を確保します。
最後に、ダイナミック レンダラーを使用してマルチビュー画像を最適化し、ユーザーの好みに基づいた柔軟なカメラ制御を可能にします。
トレーニング不要のアーキテクチャを採用した当社の PaintScene4D は、任意の軌跡から表示できるリアルな 4D シーンを効率的に生成します。
コードは公開されます。
私たちのプロジェクトページは https://paintscene4d.github.io/ にあります。
要約(オリジナル)
Recent advances in diffusion models have revolutionized 2D and 3D content creation, yet generating photorealistic dynamic 4D scenes remains a significant challenge. Existing dynamic 4D generation methods typically rely on distilling knowledge from pre-trained 3D generative models, often fine-tuned on synthetic object datasets. Consequently, the resulting scenes tend to be object-centric and lack photorealism. While text-to-video models can generate more realistic scenes with motion, they often struggle with spatial understanding and provide limited control over camera viewpoints during rendering. To address these limitations, we present PaintScene4D, a novel text-to-4D scene generation framework that departs from conventional multi-view generative models in favor of a streamlined architecture that harnesses video generative models trained on diverse real-world datasets. Our method first generates a reference video using a video generation model, and then employs a strategic camera array selection for rendering. We apply a progressive warping and inpainting technique to ensure both spatial and temporal consistency across multiple viewpoints. Finally, we optimize multi-view images using a dynamic renderer, enabling flexible camera control based on user preferences. Adopting a training-free architecture, our PaintScene4D efficiently produces realistic 4D scenes that can be viewed from arbitrary trajectories. The code will be made publicly available. Our project page is at https://paintscene4d.github.io/
arxiv情報
著者 | Vinayak Gupta,Yunze Man,Yu-Xiong Wang |
発行日 | 2024-12-05 18:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google