SHERF: Generalizable Human NeRF from a Single Image

要約

3D 人間を再構成する既存の Human NeRF 手法は通常、マルチビュー カメラからの複数の 2D 画像、または固定カメラ ビューからキャプチャされた単眼ビデオに依存しています。
ただし、現実世界のシナリオでは、人間の画像はランダムなカメラ角度からキャプチャされることが多く、高品質の 3D 人物再構成には課題が生じます。
この論文では、単一の入力画像からアニメーション化可能な 3D 人間を復元するための最初の一般化可能な Human NeRF モデルである SHERF を提案します。
SHERF は、標準空間内の 3D 人間表現を抽出してエンコードし、自由なビューやポーズからのレンダリングとアニメーションを可能にします。
高忠実度の新しいビューとポーズの合成を実現するには、エンコードされた 3D 人間の表現が全体的な外観と局所的なきめの細かいテクスチャの両方をキャプチャする必要があります。
この目的を達成するために、情報エンコーディングを容易にするために、グローバル、ポイントレベル、ピクセル位置合わせの特徴を含む 3D 対応の階層特徴のバンクを提案します。
グローバル特徴は、単一の入力画像から抽出された情報を強化し、部分的な 2D 観察から欠落している情報を補完します。
ポイントレベルの特徴は 3D 人間の構造の強力な手がかりを提供しますが、ピクセル単位の特徴はよりきめの細かい詳細を保持します。
3D 対応の階層機能バンクを効果的に統合するために、機能融合トランスフォーマーを設計します。
THuman、RenderPeople、ZJU_MoCap、および HuMMan データセットに関する広範な実験により、SHERF が新しいビューとポーズ合成の一般化性が向上し、最先端のパフォーマンスを達成できることが実証されました。

要約(オリジナル)

Existing Human NeRF methods for reconstructing 3D humans typically rely on multiple 2D images from multi-view cameras or monocular videos captured from fixed camera views. However, in real-world scenarios, human images are often captured from random camera angles, presenting challenges for high-quality 3D human reconstruction. In this paper, we propose SHERF, the first generalizable Human NeRF model for recovering animatable 3D humans from a single input image. SHERF extracts and encodes 3D human representations in canonical space, enabling rendering and animation from free views and poses. To achieve high-fidelity novel view and pose synthesis, the encoded 3D human representations should capture both global appearance and local fine-grained textures. To this end, we propose a bank of 3D-aware hierarchical features, including global, point-level, and pixel-aligned features, to facilitate informative encoding. Global features enhance the information extracted from the single input image and complement the information missing from the partial 2D observation. Point-level features provide strong clues of 3D human structure, while pixel-aligned features preserve more fine-grained details. To effectively integrate the 3D-aware hierarchical feature bank, we design a feature fusion transformer. Extensive experiments on THuman, RenderPeople, ZJU_MoCap, and HuMMan datasets demonstrate that SHERF achieves state-of-the-art performance, with better generalizability for novel view and pose synthesis.

arxiv情報

著者 Shoukang Hu,Fangzhou Hong,Liang Pan,Haiyi Mei,Lei Yang,Ziwei Liu
発行日 2023-08-16 17:58:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク