要約
人間アバターを作成するための既存のニューラルレンダリング手法は、ビデオやマルチビュー画像などの高密度な入力信号を必要とするか、大規模な特定の3D人間データセットから学習した事前分布を利用して、スパースビュー入力で再構成できるようにするのが一般的である。しかし、これらの手法の多くは、単一の画像しか利用できない場合に、現実的な再構成を実現することができません。そこで、本研究では、1枚の画像から人間に特化した神経輝度場を学習する新しい手法ELICITを提案し、データ効率よくリアルな3D人間のアニメーションを実現する。ELICITでは、人間が1枚の画像から容易に身体形状を復元し、全身を覆う衣服を推測できることに着想を得て、3次元形状事前分布と視覚的意味事前分布という2つの事前分布を利用する。具体的には、ELICITはスキン頂点に基づくテンプレートモデル(SMPL)から3次元体形形状事前分布を導入し、CLIPに基づく事前学習モデルから視覚的な服装意味事前分布を実装しています。この2つの事前分布は、見えない領域でもっともらしいコンテンツを作成するための最適化を共同で導くために使用される。さらに、視覚的な詳細を改善するために、アバターの異なる部分を局所的に洗練させるセグメンテーションに基づくサンプリング戦略を提案する。ZJU-MoCAP、Human3.6M、DeepFashionなどの複数の一般的なベンチマークで総合的に評価した結果、単一の画像しか利用できない場合、ELICITは現在の最先端のアバター作成方法を凌駕していることが示された。コードは研究目的のため、https://elicit3d.github.io で公開される予定です。
要約(オリジナル)
Existing neural rendering methods for creating human avatars typically either require dense input signals such as video or multi-view images, or leverage a learned prior from large-scale specific 3D human datasets such that reconstruction can be performed with sparse-view inputs. Most of these methods fail to achieve realistic reconstruction when only a single image is available. To enable the data-efficient creation of realistic animatable 3D humans, we propose ELICIT, a novel method for learning human-specific neural radiance fields from a single image. Inspired by the fact that humans can easily reconstruct the body geometry and infer the full-body clothing from a single image, we leverage two priors in ELICIT: 3D geometry prior and visual semantic prior. Specifically, ELICIT introduces the 3D body shape geometry prior from a skinned vertex-based template model (i.e., SMPL) and implements the visual clothing semantic prior with the CLIP-based pre-trained models. Both priors are used to jointly guide the optimization for creating plausible content in the invisible areas. In order to further improve visual details, we propose a segmentation-based sampling strategy that locally refines different parts of the avatar. Comprehensive evaluations on multiple popular benchmarks, including ZJU-MoCAP, Human3.6M, and DeepFashion, show that ELICIT has outperformed current state-of-the-art avatar creation methods when only a single image is available. Code will be public for reseach purpose at https://elicit3d.github.io .
arxiv情報
著者 | Yangyi Huang,Hongwei Yi,Weiyang Liu,Haofan Wang,Boxi Wu,Wenxiao Wang,Binbin Lin,Debing Zhang,Deng Cai |
発行日 | 2022-12-05 18:24:06+00:00 |
arxivサイト | arxiv_id(pdf) |