要約
私たちの目標は、幾何学的に正確で、現実的で、再照明可能で、現在のレンダリング システムと互換性のある、カスタマイズされたアニメーション可能な 3D ヘッド アバターをビデオから効率的に学習することです。
3D メッシュは効率的な処理を可能にし、移植性に優れていますが、形状や外観の点で現実感に欠けます。
一方、ニューラル表現は現実的ですが、互換性がなく、トレーニングとレンダリングに時間がかかります。
私たちの重要な洞察は、従来のコンピューター グラフィックスから高度に最適化された手法を活用し、一部のコンポーネントをニューラル ネットワークで近似することにより、微分可能なレンダリングを介して高忠実度の 3D メッシュ表現を効率的に学習できるということです。
そのために、単一の単眼ビデオからアニメーション化可能で再照明可能なメッシュ アバターを作成できる技術である FLARE を導入します。
まず、メッシュ表現を使用して標準ジオメトリを学習し、学習されたブレンドシェイプと線形ブレンド スキニング ウェイトを介して、効率的な微分可能なラスタライゼーションと簡単なアニメーションを可能にします。
次に、物理ベースのレンダリングに従い、観察された色を固有のアルベド、粗さ、照明の神経表現に組み込んで、学習したアバターを新しいシーンで再照明できるようにします。
入力ビデオは視野が狭い単一のデバイスでキャプチャされるため、周囲の環境光のモデリングは簡単ではありません。
鏡面反射をモデル化するための分割和近似に基づいて、表面粗さによって変調された多層パーセプトロン (MLP) を使用して事前フィルターされた環境マップを近似することでこの問題に対処し、光を明示的にモデル化する必要性を排除します。
学習した変形、マテリアル、ライティング MLP と組み合わせたメッシュ ベースのアバターの定式化により、高品質のジオメトリと外観を備えたアバターが生成されると同時に、既存のアプローチと比較してトレーニングとレンダリングが効率的であることを実証します。
要約(オリジナル)
Our goal is to efficiently learn personalized animatable 3D head avatars from videos that are geometrically accurate, realistic, relightable, and compatible with current rendering systems. While 3D meshes enable efficient processing and are highly portable, they lack realism in terms of shape and appearance. Neural representations, on the other hand, are realistic but lack compatibility and are slow to train and render. Our key insight is that it is possible to efficiently learn high-fidelity 3D mesh representations via differentiable rendering by exploiting highly-optimized methods from traditional computer graphics and approximating some of the components with neural networks. To that end, we introduce FLARE, a technique that enables the creation of animatable and relightable mesh avatars from a single monocular video. First, we learn a canonical geometry using a mesh representation, enabling efficient differentiable rasterization and straightforward animation via learned blendshapes and linear blend skinning weights. Second, we follow physically-based rendering and factor observed colors into intrinsic albedo, roughness, and a neural representation of the illumination, allowing the learned avatars to be relit in novel scenes. Since our input videos are captured on a single device with a narrow field of view, modeling the surrounding environment light is non-trivial. Based on the split-sum approximation for modeling specular reflections, we address this by approximating the pre-filtered environment map with a multi-layer perceptron (MLP) modulated by the surface roughness, eliminating the need to explicitly model the light. We demonstrate that our mesh-based avatar formulation, combined with learned deformation, material, and lighting MLPs, produces avatars with high-quality geometry and appearance, while also being efficient to train and render compared to existing approaches.
arxiv情報
著者 | Shrisha Bharadwaj,Yufeng Zheng,Otmar Hilliges,Michael J. Black,Victoria Fernandez-Abrevaya |
発行日 | 2023-10-27 09:11:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google