GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion

要約

スマートフォンなどのコモディティデバイスが撮影した単眼動画から、アニメーション可能な3Dガウスアバターを再構築するための新しいアプローチを提案します。
このような録音からのフォトリアリックな3Dヘッドアバターの再構築は、観察が限られているために困難です。
この問題に対処するために、マルチビューヘッド拡散モデルを導入し、その前領域を活用して欠落している領域を埋め、ガウスのスプラッティングレンダリングのビューの一貫性を確保します。
正確な視点制御を有効にするために、火炎ベースのヘッド再構築からレンダリングされた通常のマップを使用して、ピクセルアライメント誘導バイアスを提供します。
また、顔のアイデンティティと外観の詳細を保存するために、入力画像から抽出されたVAE特徴の拡散モデルを条件付けます。
ガウスアバターの再構築については、誤って除去された画像を擬似グラウンドの真理として使用して、過剰飽和度の問題を効果的に緩和することにより、マルチビュー拡散前の拡散前を蒸留します。
フォトリアリズムをさらに向上させるために、潜在的なアップサンプリング前のプライアーを適用して、画像にデコードする前に、薄い潜在性を改良します。
Nersemble Datasetでの方法を評価し、GAFが新しいビュー合成における以前の最先端の方法よりも優れていることを示しています。
さらに、コモディティデバイスで撮影された単眼ビデオからのより忠実度のアバター再構成を示します。

要約(オリジナル)

We propose a novel approach for reconstructing animatable 3D Gaussian avatars from monocular videos captured by commodity devices like smartphones. Photorealistic 3D head avatar reconstruction from such recordings is challenging due to limited observations, which leaves unobserved regions under-constrained and can lead to artifacts in novel views. To address this problem, we introduce a multi-view head diffusion model, leveraging its priors to fill in missing regions and ensure view consistency in Gaussian splatting renderings. To enable precise viewpoint control, we use normal maps rendered from FLAME-based head reconstruction, which provides pixel-aligned inductive biases. We also condition the diffusion model on VAE features extracted from the input image to preserve facial identity and appearance details. For Gaussian avatar reconstruction, we distill multi-view diffusion priors by using iteratively denoised images as pseudo-ground truths, effectively mitigating over-saturation issues. To further improve photorealism, we apply latent upsampling priors to refine the denoised latent before decoding it into an image. We evaluate our method on the NeRSemble dataset, showing that GAF outperforms previous state-of-the-art methods in novel view synthesis. Furthermore, we demonstrate higher-fidelity avatar reconstructions from monocular videos captured on commodity devices.

arxiv情報

著者 Jiapeng Tang,Davide Davoli,Tobias Kirschstein,Liam Schoneveld,Matthias Niessner
発行日 2025-04-14 16:02:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク