要約
ディープ ラーニング、アーティストがキュレーションしたスキャン、暗黙関数 (IF) の組み合わせにより、画像から詳細な衣服を着た 3D 人間を作成できます。
ただし、既存の方法は完璧にはほど遠いものです。
IF ベースの方法では、自由形式のジオメトリが復元されますが、身体のない手足や、斬新なポーズや服の退化した形状が生成されます。
これらのケースのロバスト性を高めるために、既存の作業では明示的なパラメトリック ボディ モデルを使用してサーフェスの再構成を制限していますが、これにより、ボディから逸脱したゆるい衣服などの自由形状サーフェスの回復が制限されます。
私たちが望むのは、暗黙的な表現と明示的な本体の正則化の最良の特性を組み合わせる方法です。
(1) 現在のネットワークは、フル 3D サーフェスよりも詳細な 2D マップを推測するのに適していること、(2) パラメトリック モデルは、詳細なサーフェス パッチをつなぎ合わせる「キャンバス」と見なすことができることです。
これらに基づいて、私たちの方法である ECON には 3 つの主なステップがあります。 (1) 服を着た人の前面と背面の詳細な 2D 法線マップを推測します。
(2) これらから、d-BiNI と呼ばれる 2.5D の表と裏のサーフェスを復元します。これは、同じように詳細であるが不完全であり、これらを w.r.t. として登録します。
画像から復元された SMPL-X ボディ メッシュの助けを借りて、互いに。
(3) d-BiNI サーフェス間の欠落しているジオメトリを「修復」します。
顔や手がうるさい場合は、オプションで SMPL-X のものに交換できます。
その結果、ECON は、ゆるい服や難しいポーズでも忠実度の高い 3D 人間を推測します。
CAPE および Renderpeople データセットの定量的評価によると、これは以前の方法を超えています。
知覚研究はまた、ECON の知覚リアリズムが大幅に優れていることを示しています。
コードとモデルは、研究目的で econ.is.tue.mpg.de で入手できます。
要約(オリジナル)
The combination of deep learning, artist-curated scans, and Implicit Functions (IF), is enabling the creation of detailed, clothed, 3D humans from images. However, existing methods are far from perfect. IF-based methods recover free-form geometry, but produce disembodied limbs or degenerate shapes for novel poses or clothes. To increase robustness for these cases, existing work uses an explicit parametric body model to constrain surface reconstruction, but this limits the recovery of free-form surfaces such as loose clothing that deviates from the body. What we want is a method that combines the best properties of implicit representation and explicit body regularization. To this end, we make two key observations: (1) current networks are better at inferring detailed 2D maps than full-3D surfaces, and (2) a parametric model can be seen as a ‘canvas’ for stitching together detailed surface patches. Based on these, our method, ECON, has three main steps: (1) It infers detailed 2D normal maps for the front and back side of a clothed person. (2) From these, it recovers 2.5D front and back surfaces, called d-BiNI, that are equally detailed, yet incomplete, and registers these w.r.t. each other with the help of a SMPL-X body mesh recovered from the image. (3) It ‘inpaints’ the missing geometry between d-BiNI surfaces. If the face and hands are noisy, they can optionally be replaced with the ones of SMPL-X. As a result, ECON infers high-fidelity 3D humans even in loose clothes and challenging poses. This goes beyond previous methods, according to the quantitative evaluation on the CAPE and Renderpeople datasets. Perceptual studies also show that ECON’s perceived realism is better by a large margin. Code and models are available for research purposes at econ.is.tue.mpg.de
arxiv情報
著者 | Yuliang Xiu,Jinlong Yang,Xu Cao,Dimitrios Tzionas,Michael J. Black |
発行日 | 2023-03-23 14:27:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google