Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Orthogonal Diffusion Models

要約

最近の 3D 生成の進歩は主に、インターネット規模の画像データで事前トレーニングされ、大規模な 3D データで微調整された 3D 対応画像拡散モデルの改良によって推進されており、一貫性の高いマルチビュー画像を生成する機能を提供します。
ただし、同期されたマルチビュー ビデオ データが不足しているため、このパラダイムを 4D 生成に直接適用することは非現実的です。
それにもかかわらず、利用可能なビデオと 3D データは、それぞれ満足のいく動的事前分布と幾何学的事前分布を提供できるビデオ モデルとマルチビュー拡散モデルをトレーニングするのに十分です。
この論文では、動的な 3D コンテンツ作成のための新しいフレームワークである Diffusion$^2$ を紹介します。これは、これらのモデルからの幾何学的一貫性と時間的滑らかさに関する知識を活用して、高密度のマルチビューおよびマルチフレーム画像を直接サンプリングし、
連続 4D 表現を最適化します。
具体的には、生成される画像の確率構造に基づいて、ビデオのスコア合成と多視点拡散モデルを介して、シンプルかつ効果的なノイズ除去戦略を設計します。
画像生成の高い並列性と最新の 4D 再構成パイプラインの効率のおかげで、私たちのフレームワークは数分以内に 4D コンテンツを生成できます。
さらに、私たちの方法は 4D データへの依存を回避するため、基礎ビデオとマルチビュー拡散モデルのスケーラビリティの恩恵を受ける可能性があります。
広範な実験により、私たちが提案するフレームワークの有効性と、さまざまなタイプのプロンプトに柔軟に適応するその機能が実証されています。

要約(オリジナル)

Recent advancements in 3D generation are predominantly propelled by improvements in 3D-aware image diffusion models which are pretrained on Internet-scale image data and fine-tuned on massive 3D data, offering the capability of producing highly consistent multi-view images. However, due to the scarcity of synchronized multi-view video data, it is impractical to adapt this paradigm to 4D generation directly. Despite that, the available video and 3D data are adequate for training video and multi-view diffusion models that can provide satisfactory dynamic and geometric priors respectively. In this paper, we present Diffusion$^2$, a novel framework for dynamic 3D content creation that leverages the knowledge about geometric consistency and temporal smoothness from these models to directly sample dense multi-view and multi-frame images which can be employed to optimize continuous 4D representation. Specifically, we design a simple yet effective denoising strategy via score composition of video and multi-view diffusion models based on the probability structure of the images to be generated. Owing to the high parallelism of the image generation and the efficiency of the modern 4D reconstruction pipeline, our framework can generate 4D content within few minutes. Furthermore, our method circumvents the reliance on 4D data, thereby having the potential to benefit from the scalability of the foundation video and multi-view diffusion models. Extensive experiments demonstrate the efficacy of our proposed framework and its capability to flexibly adapt to various types of prompts.

arxiv情報

著者 Zeyu Yang,Zijie Pan,Chun Gu,Li Zhang
発行日 2024-04-02 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク