3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation

要約

マルチビュー画像拡散モデルは、オープンドメイン 3D オブジェクト生成を大幅に進化させました。
ただし、既存のモデルのほとんどは、固有の 3D バイアスが欠如した 2D ネットワーク アーキテクチャに依存しているため、幾何学的一貫性が損なわれます。
この課題に対処するために、事前トレーニングされた画像拡散モデルに 3D ジオメトリ認識を注入するように設計されたプラグイン モジュールである 3D-Adapter を導入します。
私たちのアプローチの中心となるのは、3D フィードバック拡張のアイデアです。サンプリング ループのノイズ除去ステップごとに、3D アダプターは中間のマルチビュー フィーチャを一貫した 3D 表現にデコードし、レンダリングされた RGBD ビューを再エンコードして、事前トレーニングされたベース モデルを拡張します。
機能追加により。
私たちは 3D アダプターの 2 つのバリエーションを研究しています。1 つはガウス スプラッティングに基づく高速フィードフォワード バージョン、もう 1 つはニューラル フィールドとメッシュを利用した多用途のトレーニング不要バージョンです。
私たちの広範な実験により、3D アダプターが Instant3D や Zero123++ などのテキストからマルチビューへのモデルのジオメトリ品質を大幅に向上させるだけでなく、プレーンテキストから画像への安定拡散を使用した高品質の 3D 生成も可能になることが実証されました。
さらに、テキストから 3D、画像から 3D、テキストからテクスチャ、およびテキストからアバターのタスクで高品質の結果を提示することで、3D アダプターの幅広い応用可能性を示します。

要約(オリジナル)

Multi-view image diffusion models have significantly advanced open-domain 3D object generation. However, most existing models rely on 2D network architectures that lack inherent 3D biases, resulting in compromised geometric consistency. To address this challenge, we introduce 3D-Adapter, a plug-in module designed to infuse 3D geometry awareness into pretrained image diffusion models. Central to our approach is the idea of 3D feedback augmentation: for each denoising step in the sampling loop, 3D-Adapter decodes intermediate multi-view features into a coherent 3D representation, then re-encodes the rendered RGBD views to augment the pretrained base model through feature addition. We study two variants of 3D-Adapter: a fast feed-forward version based on Gaussian splatting and a versatile training-free version utilizing neural fields and meshes. Our extensive experiments demonstrate that 3D-Adapter not only greatly enhances the geometry quality of text-to-multi-view models such as Instant3D and Zero123++, but also enables high-quality 3D generation using the plain text-to-image Stable Diffusion. Furthermore, we showcase the broad application potential of 3D-Adapter by presenting high quality results in text-to-3D, image-to-3D, text-to-texture, and text-to-avatar tasks.

arxiv情報

著者 Hansheng Chen,Bokui Shen,Yulin Liu,Ruoxi Shi,Linqi Zhou,Connor Z. Lin,Jiayuan Gu,Hao Su,Gordon Wetzstein,Leonidas Guibas
発行日 2024-10-24 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク