Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models

要約

私たちは、拡散モデルを使用して現実的な人間のデジタル アバターを生成する 3D 生成パイプラインを提案します。
人間のアイデンティティ、ポーズ、確率的詳細は多種多様であるため、3D ヒューマン メッシュの生成は困難な問題となっています。
これに対処するために、問題を 2D 法線マップの生成と法線マップに基づく 3D 再構成に分解します。
具体的には、まず、姿勢条件付き拡散モデルを使用して、服を着た人間の前面と背面のリアルな法線マップ (デュアル法線マップと呼ばれる) を同時に生成します。
3D 再構成では、メッシュ最適化を通じて法線マップに従って以前の SMPL-X メッシュを詳細な 3D メッシュに「彫刻」します。
高周波のディテールをさらに強化するために、身体領域と顔領域の両方に拡散リサンプリング スキームを導入し、リアルなデジタル アバターの生成を促進します。
また、最新のテキストから画像への拡散モデルをシームレスに組み込んで、テキストベースの人間のアイデンティティ管理をサポートします。
私たちの方法、つまり Chupa は、より優れた知覚品質とアイデンティティの多様性を備えた、現実的な 3D の服を着た人間を生成することができます。

要約(オリジナル)

We propose a 3D generation pipeline that uses diffusion models to generate realistic human digital avatars. Due to the wide variety of human identities, poses, and stochastic details, the generation of 3D human meshes has been a challenging problem. To address this, we decompose the problem into 2D normal map generation and normal map-based 3D reconstruction. Specifically, we first simultaneously generate realistic normal maps for the front and backside of a clothed human, dubbed dual normal maps, using a pose-conditional diffusion model. For 3D reconstruction, we ‘carve’ the prior SMPL-X mesh to a detailed 3D mesh according to the normal maps through mesh optimization. To further enhance the high-frequency details, we present a diffusion resampling scheme on both body and facial regions, thus encouraging the generation of realistic digital avatars. We also seamlessly incorporate a recent text-to-image diffusion model to support text-based human identity control. Our method, namely, Chupa, is capable of generating realistic 3D clothed humans with better perceptual quality and identity variety.

arxiv情報

著者 Byungjun Kim,Patrick Kwon,Kwangho Lee,Myunggi Lee,Sookwan Han,Daesik Kim,Hanbyul Joo
発行日 2023-09-15 12:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク