要約
この論文では、話している顔のフォトリアリスティックなレンダリングを大幅に改善し、主要な評価データセットで最先端の結果を達成するフレームワークである、分解されたトリプレーン ハッシュ ニューラル放射輝度フィールド (DT-NeRF) を紹介します。
私たちのアーキテクチャは、顔の領域を 2 つの特殊なトリプレーンに分解します。1 つは口の表現に特化し、もう 1 つはより広範な顔の特徴に特化します。
オーディオの特徴を残差項として導入し、オーディオ-口-顔変換器を通じてクエリ ベクトルとしてモデルに統合します。
さらに、私たちの方法では、Neural Radiance Fields (NeRF) の機能を利用して、追加のボリューム レンダリング技術を通じて顔全体のボリューム表現を強化します。
包括的な実験評価により、私たちが提案したアプローチの有効性と優位性が裏付けられています。
要約(オリジナル)
In this paper, we present the decomposed triplane-hash neural radiance fields (DT-NeRF), a framework that significantly improves the photorealistic rendering of talking faces and achieves state-of-the-art results on key evaluation datasets. Our architecture decomposes the facial region into two specialized triplanes: one specialized for representing the mouth, and the other for the broader facial features. We introduce audio features as residual terms and integrate them as query vectors into our model through an audio-mouth-face transformer. Additionally, our method leverages the capabilities of Neural Radiance Fields (NeRF) to enrich the volumetric representation of the entire face through additive volumetric rendering techniques. Comprehensive experimental evaluations corroborate the effectiveness and superiority of our proposed approach.
arxiv情報
著者 | Yaoyu Su,Shaohui Wang,Haoqian Wang |
発行日 | 2023-09-14 14:39:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google