要約
画像生成のための潜在拡散モデルは、大量採用を達成できる品質のしきい値を超えました。
最近、一連の作業が 3D ドメインでこの成功を再現することに向けて進歩を遂げ、点群 VAE、トライプレーン表現、ニューラル インプリシット サーフェス、微分可能なレンダリング ベースのトレーニングなどの手法を導入しました。
この方向に沿ってさらに一歩進み、1) テクスチャ メッシュの潜在表現を学習できるトライプレーン VAE と 2) トライプレーン機能を生成する条件付き拡散モデルで構成される 2 段階のパイプラインでこれらの開発を組み合わせます。
このアーキテクチャにより、複数の多様なカテゴリにわたる高品質のテクスチャ付きまたはテクスチャなしの 3D メッシュを条件付きおよび無条件で 1 つの GPU で数秒で生成できるようになりました。
これは、メッシュ品質とテクスチャ生成に関する画像調整および無条件生成で、以前の作業を大幅に上回っています。
さらに、品質と多様性を向上させるために、大規模なデータセットへのモデルのスケーラビリティを示します。
コードとトレーニング済みモデルをリリースします。
要約(オリジナル)
Latent diffusion models for image generation have crossed a quality threshold which enabled them to achieve mass adoption. Recently, a series of works have made advancements towards replicating this success in the 3D domain, introducing techniques such as point cloud VAE, triplane representation, neural implicit surfaces and differentiable rendering based training. We take another step along this direction, combining these developments in a two-step pipeline consisting of 1) a triplane VAE which can learn latent representations of textured meshes and 2) a conditional diffusion model which generates the triplane features. For the first time this architecture allows conditional and unconditional generation of high quality textured or untextured 3D meshes across multiple diverse categories in a few seconds on a single GPU. It outperforms previous work substantially on image-conditioned and unconditional generation on mesh quality as well as texture generation. Furthermore, we demonstrate the scalability of our model to large datasets for increased quality and diversity. We will release our code and trained models.
arxiv情報
著者 | Anchit Gupta,Wenhan Xiong,Yixin Nie,Ian Jones,Barlas Oğuz |
発行日 | 2023-03-09 16:18:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google