要約
潜在的な拡散モデルを使用すると、新しい3D生成技術の開発に効果的であることが証明されています。
潜在的な拡散モデルを活用するために、重要な課題は、潜在的な空間と3D空間をリンクする高忠実度と効率的な表現を設計することです。
この論文では、フィードフォワードネイティブ3D世代の新しい表現であるAtlas Gaussiansを紹介します。
Atlas Gaussiansは、ローカルパッチの結合として形状を表し、各パッチは3Dガウス人をデコードできます。
パッチを特徴ベクトルのシーケンスとしてパラメーター化し、機能ベクターから3Dガウスをデコードする学習可能な関数を設計します。
このプロセスでは、UVベースのサンプリングを組み込み、十分に大きく、理論的に無限の3Dガウスポイントの数の生成を可能にします。
大量の3Dガウス人は、高品質の詳細の生成を可能にします。
さらに、表現に対する現地の認識により、変圧器ベースのデコード手順はパッチレベルで動作し、効率を確保します。
Atlas Gaussiansの表現を学習するために変分自動エンコーダーを訓練し、3D世代を学習するための潜在スペースに潜在的な拡散モデルを適用します。
実験は、私たちのアプローチが、フィードフォワードネイティブ3D世代の以前の芸術を上回ることを示しています。
プロジェクトページ:https://yanghtr.github.io/projects/atlas_gaussians。
要約(オリジナル)
Using the latent diffusion model has proven effective in developing novel 3D generation techniques. To harness the latent diffusion model, a key challenge is designing a high-fidelity and efficient representation that links the latent space and the 3D space. In this paper, we introduce Atlas Gaussians, a novel representation for feed-forward native 3D generation. Atlas Gaussians represent a shape as the union of local patches, and each patch can decode 3D Gaussians. We parameterize a patch as a sequence of feature vectors and design a learnable function to decode 3D Gaussians from the feature vectors. In this process, we incorporate UV-based sampling, enabling the generation of a sufficiently large, and theoretically infinite, number of 3D Gaussian points. The large amount of 3D Gaussians enables the generation of high-quality details. Moreover, due to local awareness of the representation, the transformer-based decoding procedure operates on a patch level, ensuring efficiency. We train a variational autoencoder to learn the Atlas Gaussians representation, and then apply a latent diffusion model on its latent space for learning 3D Generation. Experiments show that our approach outperforms the prior arts of feed-forward native 3D generation. Project page: https://yanghtr.github.io/projects/atlas_gaussians.
arxiv情報
著者 | Haitao Yang,Yuan Dong,Hanwen Jiang,Dejia Xu,Georgios Pavlakos,Qixing Huang |
発行日 | 2025-04-09 14:27:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google