要約
私たちは、スマートフォンなどの汎用デバイスでキャプチャされた単眼ビデオからアニメーション可能な 3D ガウス アバターを再構成するための新しいアプローチを提案します。
このような記録からフォトリアリスティックな 3D 頭部アバターを再構成することは、観察が限られているため困難であり、観察されていない領域が制約不足のままになり、新しいビューにアーチファクトが生じる可能性があります。
この問題に対処するために、マルチビュー ヘッド拡散モデルを導入し、その事前分布を利用して欠落領域を埋め、ガウス スプラッティング レンダリングでのビューの一貫性を確保します。
正確な視点制御を可能にするために、FLAME ベースの頭部再構築からレンダリングされた法線マップを使用します。これにより、ピクセルに合わせた誘導バイアスが提供されます。
また、入力画像から抽出された VAE 特徴に基づいて拡散モデルを条件付けして、顔のアイデンティティと外観の詳細を保存します。
ガウス アバター再構成では、反復的にノイズ除去された画像を擬似グラウンド トゥルースとして使用することにより、マルチビュー拡散事前分布を抽出し、過飽和の問題を効果的に軽減します。
フォトリアリズムをさらに向上させるために、画像にデコードする前に、潜在的なアップサンプリングを適用して、ノイズ除去された潜在的な画像を精製します。
NeRSemble データセットでメソッドを評価し、GAF が新しいビュー合成において以前の最先端のメソッドよりも 5.34\% 高い SSIM スコアで優れていることを示しました。
さらに、市販のデバイスでキャプチャされた単眼ビデオからのより忠実度の高いアバターの再構築を実証します。
要約(オリジナル)
We propose a novel approach for reconstructing animatable 3D Gaussian avatars from monocular videos captured by commodity devices like smartphones. Photorealistic 3D head avatar reconstruction from such recordings is challenging due to limited observations, which leaves unobserved regions under-constrained and can lead to artifacts in novel views. To address this problem, we introduce a multi-view head diffusion model, leveraging its priors to fill in missing regions and ensure view consistency in Gaussian splatting renderings. To enable precise viewpoint control, we use normal maps rendered from FLAME-based head reconstruction, which provides pixel-aligned inductive biases. We also condition the diffusion model on VAE features extracted from the input image to preserve details of facial identity and appearance. For Gaussian avatar reconstruction, we distill multi-view diffusion priors by using iteratively denoised images as pseudo-ground truths, effectively mitigating over-saturation issues. To further improve photorealism, we apply latent upsampling to refine the denoised latent before decoding it into an image. We evaluate our method on the NeRSemble dataset, showing that GAF outperforms the previous state-of-the-art methods in novel view synthesis by a 5.34\% higher SSIM score. Furthermore, we demonstrate higher-fidelity avatar reconstructions from monocular videos captured on commodity devices.
arxiv情報
著者 | Jiapeng Tang,Davide Davoli,Tobias Kirschstein,Liam Schoneveld,Matthias Niessner |
発行日 | 2024-12-13 15:31:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google