要約
テキストまたは単一の画像からの3Dコンテンツ生成における最近の進歩は、限られた高品質の3Dデータセットと2Dマルチビュー生成からの矛盾を伴う闘争です。
大規模なテキストから画像への拡散モデルを飼いならすことにより、3Dガウススプラットをネイティブに生成する新しい3D生成フレームワークであるDiffsplatを紹介します。
統合モデルで3D一貫性を維持しながら、Webスケールの2Dプライアーを効果的に利用することにより、以前の3D生成モデルとは異なります。
トレーニングをブートストラップするために、軽量の再構成モデルが提案され、スケーラブルなデータセットキュレーションのためにマルチビューガウススプラットグリッドを即座に生成します。
これらのグリッドの通常の拡散損失と併せて、任意のビュー全体で3Dコヒーレンスを促進するために3Dレンダリング損失が導入されます。
画像拡散モデルとの互換性により、3D領域への画像生成のための多数のテクニックのシームレスな適応が可能になります。
広範な実験により、テキストおよび画像条件の生成タスクとダウンストリームアプリケーションにおけるDiffsplatの優位性が明らかになりました。
徹底的なアブレーション研究は、各重要な設計選択の有効性を検証し、基礎となるメカニズムに関する洞察を提供します。
要約(オリジナル)
Recent advancements in 3D content generation from text or a single image struggle with limited high-quality 3D datasets and inconsistency from 2D multi-view generation. We introduce DiffSplat, a novel 3D generative framework that natively generates 3D Gaussian splats by taming large-scale text-to-image diffusion models. It differs from previous 3D generative models by effectively utilizing web-scale 2D priors while maintaining 3D consistency in a unified model. To bootstrap the training, a lightweight reconstruction model is proposed to instantly produce multi-view Gaussian splat grids for scalable dataset curation. In conjunction with the regular diffusion loss on these grids, a 3D rendering loss is introduced to facilitate 3D coherence across arbitrary views. The compatibility with image diffusion models enables seamless adaptions of numerous techniques for image generation to the 3D realm. Extensive experiments reveal the superiority of DiffSplat in text- and image-conditioned generation tasks and downstream applications. Thorough ablation studies validate the efficacy of each critical design choice and provide insights into the underlying mechanism.
arxiv情報
著者 | Chenguo Lin,Panwang Pan,Bangbang Yang,Zeming Li,Yadong Mu |
発行日 | 2025-01-28 07:38:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google