Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation

要約

既存のフィードフォワード画像から 3D への手法は、主に 2D マルチビュー拡散モデルに依存しており、3D の一貫性を保証できません。
これらのメソッドは、プロンプト ビューの方向を変更すると簡単に折りたたまれ、主にオブジェクト中心のプロンプト イメージを処理します。
この論文では、単一のビューからオブジェクトとシーンを生成するための新しい単一段階 3D 拡散モデル DiffusionGS を提案します。
DiffusionGS は、各タイムステップで 3D ガウス点群を直接出力して、ビューの一貫性を強化し、オブジェクト中心の入力を超えて、モデルがあらゆる方向の堅牢に与えられたプロンプト ビューを生成できるようにします。
さらに、DiffusionGS の機能と一般化能力を向上させるために、シーンとオブジェクトの混合トレーニング戦略を開発することで 3D トレーニング データをスケールアップします。
実験の結果、私たちの方法は SOTA 方法よりも優れた生成品質 (PSNR で 2.20 dB 高く、FID で 23.25 dB 低い) と 5 倍以上の速度 (A100 GPU で約 6 秒) を享受できることが示されています。
ユーザー調査とテキストから 3D へのアプリケーションでも、私たちの方法の実用的な価値が明らかになります。
https://caiyuanhao1998.github.io/project/DiffusionGS/ のプロジェクト ページには、ビデオとインタラクティブな生成結果が表示されます。

要約(オリジナル)

Existing feed-forward image-to-3D methods mainly rely on 2D multi-view diffusion models that cannot guarantee 3D consistency. These methods easily collapse when changing the prompt view direction and mainly handle object-centric prompt images. In this paper, we propose a novel single-stage 3D diffusion model, DiffusionGS, for object and scene generation from a single view. DiffusionGS directly outputs 3D Gaussian point clouds at each timestep to enforce view consistency and allow the model to generate robustly given prompt views of any directions, beyond object-centric inputs. Plus, to improve the capability and generalization ability of DiffusionGS, we scale up 3D training data by developing a scene-object mixed training strategy. Experiments show that our method enjoys better generation quality (2.20 dB higher in PSNR and 23.25 lower in FID) and over 5x faster speed (~6s on an A100 GPU) than SOTA methods. The user study and text-to-3D applications also reveals the practical values of our method. Our Project page at https://caiyuanhao1998.github.io/project/DiffusionGS/ shows the video and interactive generation results.

arxiv情報

著者 Yuanhao Cai,He Zhang,Kai Zhang,Yixun Liang,Mengwei Ren,Fujun Luan,Qing Liu,Soo Ye Kim,Jianming Zhang,Zhifei Zhang,Yuqian Zhou,Zhe Lin,Alan Yuille
発行日 2024-11-21 18:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク