SCULPT: Shape-Conditioned Unpaired Learning of Pose-dependent Clothed and Textured Human Meshes

要約

人間の衣服とテクスチャを持つ3Dメッシュのための新しい3D生成モデルSCULPTを発表する。具体的には、服を着た人体の形状と外観分布を表現するように学習するディープニューラルネットワークを考案する。このようなモデルの学習は、人間のテクスチャ付き3Dメッシュのデータセットのサイズとアクセス可能性が限られているため、困難である。我々の重要な観察は、CAPEのような中規模の3Dスキャンデータセットと、着衣した人間の大規模な2D画像データセットが存在し、複数の外観を単一のジオメトリにマッピングできることである。2つのデータモダリティから効果的に学習するために、我々は、ポーズ依存の着衣人間メッシュとテクスチャ人間メッシュの非対学習手順を提案する。具体的には、3Dスキャンデータからポーズ依存のジオメトリ空間を学習する。これをSMPLモデルに対する頂点ごとの変位として表現する。次に、2D画像データを用いて、教師なし方法で、ジオメトリ条件付きテクスチャジェネレータを学習する。学習されたジオメトリモデルの中間的な活性化を使用して、テクスチャジェネレータを条件付ける。ポーズと服の種類、ポーズと服の外観の間のもつれを緩和するために、ジオメトリには服の種類、テクスチャジェネレータには服の色のような属性ラベルを用いて、テクスチャジェネレータとジオメトリジェネレータの両方を条件付ける。これらの条件付けラベルは、視覚的質問応答モデルBLIPとCLIPに基づいて、2次元画像に対して自動的に生成される。SCULPTデータセットを用いて本手法を検証し、服を着た人体に対する最先端の3D生成モデルと比較する。我々のコードとデータはhttps://sculpt.is.tue.mpg.de。

要約(オリジナル)

We present SCULPT, a novel 3D generative model for clothed and textured 3D meshes of humans. Specifically, we devise a deep neural network that learns to represent the geometry and appearance distribution of clothed human bodies. Training such a model is challenging, as datasets of textured 3D meshes for humans are limited in size and accessibility. Our key observation is that there exist medium-sized 3D scan datasets like CAPE, as well as large-scale 2D image datasets of clothed humans and multiple appearances can be mapped to a single geometry. To effectively learn from the two data modalities, we propose an unpaired learning procedure for pose-dependent clothed and textured human meshes. Specifically, we learn a pose-dependent geometry space from 3D scan data. We represent this as per vertex displacements w.r.t. the SMPL model. Next, we train a geometry conditioned texture generator in an unsupervised way using the 2D image data. We use intermediate activations of the learned geometry model to condition our texture generator. To alleviate entanglement between pose and clothing type, and pose and clothing appearance, we condition both the texture and geometry generators with attribute labels such as clothing types for the geometry, and clothing colors for the texture generator. We automatically generated these conditioning labels for the 2D images based on the visual question answering model BLIP and CLIP. We validate our method on the SCULPT dataset, and compare to state-of-the-art 3D generative models for clothed human bodies. Our code and data can be found at https://sculpt.is.tue.mpg.de.

arxiv情報

著者 Soubhik Sanyal,Partha Ghosh,Jinlong Yang,Michael J. Black,Justus Thies,Timo Bolkart
発行日 2024-05-06 16:14:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク