Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models

要約

3D 生成における最近の進歩は、主に 3D 対応画像拡散モデルの改良によって推進されています。
これらのモデルはインターネット規模の画像データで事前トレーニングされ、大規模な 3D データで微調整され、一貫性の高いマルチビュー画像を生成する機能を提供します。
ただし、同期されたマルチビュー ビデオ データが不足しているため、このパラダイムを 4D 生成に直接適用することは依然として困難です。
それにもかかわらず、利用可能なビデオと 3D データは、それぞれ満足のいく動的事前分布と幾何学的事前分布を提供できるビデオとマルチビュー拡散モデルを個別にトレーニングするのに十分です。
この両方を活用するために、この論文では、動的な 3D コンテンツ作成のための新しいフレームワークである Diffusion$^2$ を紹介します。これは、これらのモデルからの幾何学的一貫性と時間的滑らかさに関する知識を調整して、高密度のマルチビュー マルチフレーム画像を直接サンプリングするものです。
連続 4D 表現を最適化するために採用されています。
具体的には、ターゲット画像配列の確率構造に基づいて、事前トレーニングされたビデオとマルチビュー拡散モデルのスコア構成を介して、シンプルかつ効果的なノイズ除去戦略を設計します。
2 つの異種スコア間の潜在的な競合を軽減するために、補間ステップによる分散を低減するサンプリングをさらに導入し、スムーズで安定した生成を促進します。
提案された画像生成プロセスの高い並列性と最新の 4D 再構成パイプラインの効率のおかげで、私たちのフレームワークは数分以内に 4D コンテンツを生成できます。
特に、私たちの方法は高価でスケーリングが難しい 4D データへの依存を回避するため、基礎ビデオとマルチビュー拡散モデルのスケーリングから恩恵を受ける可能性があります。
広範な実験により、さまざまな種類の条件下で高度にシームレスで一貫性のある 4D アセットを生成する際の、私たちが提案するフレームワークの有効性が実証されています。

要約(オリジナル)

Recent advancements in 3D generation are predominantly propelled by improvements in 3D-aware image diffusion models. These models are pretrained on Internet-scale image data and fine-tuned on massive 3D data, offering the capability of producing highly consistent multi-view images. However, due to the scarcity of synchronized multi-view video data, it remains challenging to adapt this paradigm to 4D generation directly. Despite that, the available video and 3D data are adequate for training video and multi-view diffusion models separately that can provide satisfactory dynamic and geometric priors respectively. To take advantage of both, this paper presents Diffusion$^2$, a novel framework for dynamic 3D content creation that reconciles the knowledge about geometric consistency and temporal smoothness from these models to directly sample dense multi-view multi-frame images which can be employed to optimize continuous 4D representation. Specifically, we design a simple yet effective denoising strategy via score composition of pretrained video and multi-view diffusion models based on the probability structure of the target image array. To alleviate the potential conflicts between two heterogeneous scores, we further introduce variance-reducing sampling via interpolated steps, facilitating smooth and stable generation. Owing to the high parallelism of the proposed image generation process and the efficiency of the modern 4D reconstruction pipeline, our framework can generate 4D content within few minutes. Notably, our method circumvents the reliance on expensive and hard-to-scale 4D data, thereby having the potential to benefit from the scaling of the foundation video and multi-view diffusion models. Extensive experiments demonstrate the efficacy of our proposed framework in generating highly seamless and consistent 4D assets under various types of conditions.

arxiv情報

著者 Zeyu Yang,Zijie Pan,Chun Gu,Li Zhang
発行日 2024-10-02 14:07:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク