Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis

要約

この論文では、ER-NeRF について説明します。ER-NeRF は、小さなモデル サイズで高速収束、リアルタイム レンダリング、最先端のパフォーマンスを同時に達成できる、トーキング ポートレート合成用の新しい条件付きニューラル ラディアンス フィールド (NeRF) ベースのアーキテクチャです。
私たちのアイデアは、空間領域の不均等な寄与を明示的に利用して、トーキング ポートレート モデリングをガイドすることです。
具体的には、動的頭部再構成の精度を向上させるために、3 つの平面ハッシュ エンコーダーで空の空間領域を枝刈りすることにより、コンパクトで表現力豊かな NeRF ベースのトライプレーン ハッシュ表現が導入されています。
音声オーディオの場合、アテンション メカニズムを介して領域認識条件機能を生成する領域アテンション モジュールを提案します。
MLP ベースのエンコーダを利用してクロスモーダル関係を暗黙的に学習する既存の方法とは異なり、アテンション メカニズムは、オーディオ特徴と空間領域の間に明示的な接続を構築して、局所的な動きの事前分布をキャプチャします。
さらに、頭部ポーズの複雑な変換を空間座標にマッピングすることで、頭部と胴体の分離問題を最適化するために、直接的かつ高速な適応ポーズ エンコーディングが導入されています。
広範な実験により、私たちの方法は、以前の方法と比較して、リアルな詳細と高効率で、より優れた高忠実度で音声と唇が同期したトーキングポートレートビデオをレンダリングすることが実証されました。

要約(オリジナル)

This paper presents ER-NeRF, a novel conditional Neural Radiance Fields (NeRF) based architecture for talking portrait synthesis that can concurrently achieve fast convergence, real-time rendering, and state-of-the-art performance with small model size. Our idea is to explicitly exploit the unequal contribution of spatial regions to guide talking portrait modeling. Specifically, to improve the accuracy of dynamic head reconstruction, a compact and expressive NeRF-based Tri-Plane Hash Representation is introduced by pruning empty spatial regions with three planar hash encoders. For speech audio, we propose a Region Attention Module to generate region-aware condition feature via an attention mechanism. Different from existing methods that utilize an MLP-based encoder to learn the cross-modal relation implicitly, the attention mechanism builds an explicit connection between audio features and spatial regions to capture the priors of local motions. Moreover, a direct and fast Adaptive Pose Encoding is introduced to optimize the head-torso separation problem by mapping the complex transformation of the head pose into spatial coordinates. Extensive experiments demonstrate that our method renders better high-fidelity and audio-lips synchronized talking portrait videos, with realistic details and high efficiency compared to previous methods.

arxiv情報

著者 Jiahe Li,Jiawei Zhang,Xiao Bai,Jun Zhou,Lin Gu
発行日 2023-07-18 15:07:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク