StructLDM: Structured Latent Diffusion for 3D Human Generation

要約

最近の 3D 人体生成モデルは、2D 画像から 3D 対応の GAN を学習することで目覚ましい進歩を遂げています。
しかし、既存の 3D 人間生成手法は、人体トポロジーの関節構造と意味論を無視して、人間をコンパクトな 1D 潜在空間でモデル化します。
この論文では、3D 人体モデリングのためのより表現力豊かで高次元の潜在空間を探索し、2D 画像から学習される拡散ベースの無条件 3D 人体生成モデルである StructLDM を提案します。
StructLDM は、潜在空間の高次元の成長によって課せられる課題を 3 つの主要な設計で解決します。 1) 統計的人体テンプレートの密な表面多様体上に定義される意味論的構造化潜在空間。
2) 構造化された 3D 対応オートデコーダは、グローバル潜在空間を、ボディ テンプレートに固定された条件付き構造化ローカル NeRF のセットによってパラメータ化されたいくつかのセマンティックなボディ パーツに因数分解します。これには、2D トレーニング データから学習されたプロパティが埋め込まれており、デコードできます。
さまざまなポーズや服装スタイルの下で一貫したビューの人間をレンダリングします。
3) 生成的な人間の外観サンプリングのための構造化された潜在拡散モデル。
広範な実験により、StructLDM の最先端の生成パフォーマンスが検証され、よく採用されている 1D 潜在空間に対する構造化潜在空間の表現力が実証されています。
特に、StructLDM により、ポーズ/ビュー/形状の制御を含む、さまざまなレベルの制御可能な 3D ヒューマンの生成と編集が可能になり、構成の生成、部分を意識した衣服の編集、3D 仮想試着などの高レベルのタスクが可能になります。私たちのプロジェクト ページは次のとおりです。
: https://taohumd.github.io/projects/StructLDM/。

要約(オリジナル)

Recent 3D human generative models have achieved remarkable progress by learning 3D-aware GANs from 2D images. However, existing 3D human generative methods model humans in a compact 1D latent space, ignoring the articulated structure and semantics of human body topology. In this paper, we explore more expressive and higher-dimensional latent space for 3D human modeling and propose StructLDM, a diffusion-based unconditional 3D human generative model, which is learned from 2D images. StructLDM solves the challenges imposed due to the high-dimensional growth of latent space with three key designs: 1) A semantic structured latent space defined on the dense surface manifold of a statistical human body template. 2) A structured 3D-aware auto-decoder that factorizes the global latent space into several semantic body parts parameterized by a set of conditional structured local NeRFs anchored to the body template, which embeds the properties learned from the 2D training data and can be decoded to render view-consistent humans under different poses and clothing styles. 3) A structured latent diffusion model for generative human appearance sampling. Extensive experiments validate StructLDM’s state-of-the-art generation performance and illustrate the expressiveness of the structured latent space over the well-adopted 1D latent space. Notably, StructLDM enables different levels of controllable 3D human generation and editing, including pose/view/shape control, and high-level tasks including compositional generations, part-aware clothing editing, 3D virtual try-on, etc. Our project page is at: https://taohuumd.github.io/projects/StructLDM/.

arxiv情報

著者 Tao Hu,Fangzhou Hong,Ziwei Liu
発行日 2024-07-02 15:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク