Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation

要約

2D 画像生成の最近の進歩は、主に拡散モデルの能力と大規模なデータセットの利用可能性によって促進され、目覚ましい品質を実現しました。
ただし、直接 3D 生成には、3D データセットの不足と忠実度の低さによって依然として制約があります。
この論文では、事前学習済み 2D 拡散モデルを使用してガウス スプラット上で直接シングルビュー生成を可能にすることで、この問題に対処する新しいアプローチである Zero-1-to-G を紹介します。
私たちの重要な洞察は、3D 表現であるガウス スプラットが、さまざまな属性をエンコードするマルチビュー画像に分解できるということです。
これにより、2D 拡散フレームワーク内での直接 3D 生成という困難なタスクが再構成され、事前トレーニングされた 2D 拡散モデルの豊富な事前分布を活用できるようになります。
3D 認識を組み込むために、ビュー間および属性間のアテンション レイヤーを導入します。これにより、複雑な相関関係がキャプチャされ、生成されたスプラット間で 3D の一貫性が強制されます。
これにより、Zero-1-to-G は、事前トレーニングされた 2D 拡散事前分布を効果的に利用する初の直接画像から 3D 生成モデルとなり、効率的なトレーニングと目に見えないオブジェクトへの汎化の向上が可能になります。
合成データセットと実際のデータセットの両方に対する広範な実験により、3D オブジェクト生成における優れたパフォーマンスが実証され、高品質の 3D 生成への新しいアプローチが提供されます。

要約(オリジナル)

Recent advances in 2D image generation have achieved remarkable quality,largely driven by the capacity of diffusion models and the availability of large-scale datasets. However, direct 3D generation is still constrained by the scarcity and lower fidelity of 3D datasets. In this paper, we introduce Zero-1-to-G, a novel approach that addresses this problem by enabling direct single-view generation on Gaussian splats using pretrained 2D diffusion models. Our key insight is that Gaussian splats, a 3D representation, can be decomposed into multi-view images encoding different attributes. This reframes the challenging task of direct 3D generation within a 2D diffusion framework, allowing us to leverage the rich priors of pretrained 2D diffusion models. To incorporate 3D awareness, we introduce cross-view and cross-attribute attention layers, which capture complex correlations and enforce 3D consistency across generated splats. This makes Zero-1-to-G the first direct image-to-3D generative model to effectively utilize pretrained 2D diffusion priors, enabling efficient training and improved generalization to unseen objects. Extensive experiments on both synthetic and in-the-wild datasets demonstrate superior performance in 3D object generation, offering a new approach to high-quality 3D generation.

arxiv情報

著者 Xuyi Meng,Chen Wang,Jiahui Lei,Kostas Daniilidis,Jiatao Gu,Lingjie Liu
発行日 2025-01-09 18:37:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク