要約
野生の人間の写真が 1 枚ある場合、忠実度の高い 3D 人体モデルを再構築することは依然として困難な作業です。
既存の方法は、次のような困難に直面しています。a) 自然界の人間の画像で捉えられる身体のプロポーションの変化。
b) ショット内の多様な私物。
c) 人間の姿勢の曖昧さと人間の質感の不一致。
さらに、高品質のヒトデータが不足しているため、課題はさらに深刻になっています。
これらの問題に対処するために、私たちは、3D スキャン、マルチビュー ビデオ、単一の写真、および
合成人間データを生成しました。
GeneMAN には 3 つの主要なモジュールが含まれています。
1) パラメトリック人間モデル (SMPL など) に依存せずに、GeneMAN は最初に人間固有のテキストから画像への拡散モデルとビュー条件付き拡散モデルをトレーニングし、それぞれ再構築用の GeneMAN 2D 人間事前および 3D 人間事前として機能します。
。
2) 事前トレーニングされた人間の事前モデルの助けを借りて、ジオメトリの初期化とスカルプティング パイプラインを利用して、単一の画像から高品質の 3D 人体ジオメトリを復元します。
3) 高忠実度の 3D 人間テクスチャを実現するために、GeneMAN はマルチスペース テクスチャ リファインメント パイプラインを採用し、潜在空間とピクセル空間でテクスチャを連続的にリファインします。
広範な実験結果により、GeneMAN が単一の画像入力から高品質の 3D 人体モデルを生成でき、従来の最先端の方法を上回るパフォーマンスを発揮できることが実証されました。
特に、GeneMAN は、野生の画像を処理する際にはるかに優れた汎用性を明らかにすることができ、入力画像内の体のプロポーションに関係なく、一般的なアイテムを使用した自然なポーズの高品質の 3D 人体モデルを生成することがよくあります。
要約(オリジナル)
Given a single in-the-wild human photo, it remains a challenging task to reconstruct a high-fidelity 3D human model. Existing methods face difficulties including a) the varying body proportions captured by in-the-wild human images; b) diverse personal belongings within the shot; and c) ambiguities in human postures and inconsistency in human textures. In addition, the scarcity of high-quality human data intensifies the challenge. To address these problems, we propose a Generalizable image-to-3D huMAN reconstruction framework, dubbed GeneMAN, building upon a comprehensive multi-source collection of high-quality human data, including 3D scans, multi-view videos, single photos, and our generated synthetic human data. GeneMAN encompasses three key modules. 1) Without relying on parametric human models (e.g., SMPL), GeneMAN first trains a human-specific text-to-image diffusion model and a view-conditioned diffusion model, serving as GeneMAN 2D human prior and 3D human prior for reconstruction, respectively. 2) With the help of the pretrained human prior models, the Geometry Initialization-&-Sculpting pipeline is leveraged to recover high-quality 3D human geometry given a single image. 3) To achieve high-fidelity 3D human textures, GeneMAN employs the Multi-Space Texture Refinement pipeline, consecutively refining textures in the latent and the pixel spaces. Extensive experimental results demonstrate that GeneMAN could generate high-quality 3D human models from a single image input, outperforming prior state-of-the-art methods. Notably, GeneMAN could reveal much better generalizability in dealing with in-the-wild images, often yielding high-quality 3D human models in natural poses with common items, regardless of the body proportions in the input images.
arxiv情報
著者 | Wentao Wang,Hang Ye,Fangzhou Hong,Xue Yang,Jianfu Zhang,Yizhou Wang,Ziwei Liu,Liang Pan |
発行日 | 2024-11-27 18:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google