Animatable Implicit Neural Representations for Creating Realistic Avatars from Videos


この論文では、マルチビュー ビデオからアニメート可能な人間モデルを再構築するという課題に取り組みます。
ただし、これらは変形フィールドを並進ベクトル フィールドまたは SE(3) フィールドとして表し、最適化を非常に制約不足にします。
代わりに、線形ブレンド スキニング アルゴリズムに基づくポーズ主導の変形フィールドを導入します。これは、ブレンド ウェイト フィールドと 3D の人間の骨格を組み合わせて、観測と標準の対応関係を生成します。
人間の 3D スケルトンはより観察しやすいため、変形フィールドの学習を正則化できます。
コードは で入手できます。


This paper addresses the challenge of reconstructing an animatable human model from a multi-view video. Some recent works have proposed to decompose a non-rigidly deforming scene into a canonical neural radiance field and a set of deformation fields that map observation-space points to the canonical space, thereby enabling them to learn the dynamic scene from images. However, they represent the deformation field as translational vector field or SE(3) field, which makes the optimization highly under-constrained. Moreover, these representations cannot be explicitly controlled by input motions. Instead, we introduce a pose-driven deformation field based on the linear blend skinning algorithm, which combines the blend weight field and the 3D human skeleton to produce observation-to-canonical correspondences. Since 3D human skeletons are more observable, they can regularize the learning of the deformation field. Moreover, the pose-driven deformation field can be controlled by input skeletal motions to generate new deformation fields to animate the canonical human model. Experiments show that our approach significantly outperforms recent human modeling methods. The code is available at


著者 Sida Peng,Zhen Xu,Junting Dong,Qianqian Wang,Shangzhan Zhang,Qing Shuai,Hujun Bao,Xiaowei Zhou
発行日 2023-01-13 07:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク