Single-View 3D Human Digitalization with Large Reconstruction Models

要約

この論文では、単一画像から人間の神経放射場 (NeRF) を予測するように設計された 1 段階フィードフォワード大規模再構成モデ​​ルである Human-LRM を紹介します。
私たちのアプローチは、3D スキャンとマルチビュー キャプチャを含む広範なデータセットを使用したトレーニングで顕著な適応性を示しています。
さらに、特にオクルージョンのある野外シナリオに対するモデルの適用性を高めるために、条件付きトリプレーン拡散モデルを介してマルチビュー再構成を単一ビューに蒸留する新しい戦略を提案します。
この生成拡張機能は、単一のビューから観察した場合の人体の形状の固有の変動に対処し、オクルージョンされた画像から人間の全身を再構成することを可能にします。
広範な実験を通じて、Human-LRM がいくつかのベンチマークで以前の手法を大幅に上回っていることを示しています。

要約(オリジナル)

In this paper, we introduce Human-LRM, a single-stage feed-forward Large Reconstruction Model designed to predict human Neural Radiance Fields (NeRF) from a single image. Our approach demonstrates remarkable adaptability in training using extensive datasets containing 3D scans and multi-view capture. Furthermore, to enhance the model’s applicability for in-the-wild scenarios especially with occlusions, we propose a novel strategy that distills multi-view reconstruction into single-view via a conditional triplane diffusion model. This generative extension addresses the inherent variations in human body shapes when observed from a single view, and makes it possible to reconstruct the full body human from an occluded image. Through extensive experiments, we show that Human-LRM surpasses previous methods by a significant margin on several benchmarks.

arxiv情報

著者 Zhenzhen Weng,Jingyuan Liu,Hao Tan,Zhan Xu,Yang Zhou,Serena Yeung-Levy,Jimei Yang
発行日 2024-01-22 18:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク