SV4D: Dynamic 3D Content Generation with Multi-Frame and Multi-View Consistency

要約

我々は、マルチフレームおよびマルチビューの一貫した動的 3D コンテンツ生成のための潜在ビデオ拡散モデルである Stable Video 4D (SV4D) を紹介します。
ビデオ生成と新規ビュー合成のために個別にトレーニングされた生成モデルに依存する以前の方法とは異なり、動的 3D オブジェクトの新規ビュー ビデオを生成する統合拡散モデルを設計します。
具体的には、単眼の参照ビデオが与えられると、SV4D は時間的に一貫した各ビデオ フレームの新しいビューを生成します。
次に、生成された新しいビュー ビデオを使用して、従来のほとんどの作業で使用されていた面倒な SDS ベースの最適化を必要とせずに、暗黙的な 4D 表現 (動的 NeRF) を効率的に最適化します。
統合された新規ビュー ビデオ生成モデルをトレーニングするために、既存の Objaverse データセットから動的 3D オブジェクト データセットを厳選しました。
複数のデータセットとユーザー調査に関する広範な実験結果により、従来の作品と比較して、新規ビューのビデオ合成および 4D 生成における SV4D の最先端のパフォーマンスが実証されています。

要約(オリジナル)

We present Stable Video 4D (SV4D), a latent video diffusion model for multi-frame and multi-view consistent dynamic 3D content generation. Unlike previous methods that rely on separately trained generative models for video generation and novel view synthesis, we design a unified diffusion model to generate novel view videos of dynamic 3D objects. Specifically, given a monocular reference video, SV4D generates novel views for each video frame that are temporally consistent. We then use the generated novel view videos to optimize an implicit 4D representation (dynamic NeRF) efficiently, without the need for cumbersome SDS-based optimization used in most prior works. To train our unified novel view video generation model, we curated a dynamic 3D object dataset from the existing Objaverse dataset. Extensive experimental results on multiple datasets and user studies demonstrate SV4D’s state-of-the-art performance on novel-view video synthesis as well as 4D generation compared to prior works.

arxiv情報

著者 Yiming Xie,Chun-Han Yao,Vikram Voleti,Huaizu Jiang,Varun Jampani
発行日 2024-07-24 17:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク