LokiTalk: Learning Fine-Grained and Generalizable Correspondences to Enhance NeRF-based Talking Head Synthesis

要約

Neural Radiance Fields (NeRF) の導入以来、トーキング ヘッド合成は大幅に進歩しましたが、視覚的なアーティファクトと高いトレーニング コストが、大規模な商業的導入に対する大きな障害となっています。
私たちは、駆動信号と生成された結果の間のきめ細かく一般化可能な対応関係を特定し確立することで、両方の問題を同時に解決できることを提案します。
ここでは、NeRF ベースのトーキング ヘッドをリアルな顔のダイナミクスと向上したトレーニング効率で強化するように設計された新しいフレームワークである LokiTalk を紹介します。
きめ細かい対応を実現するために、ポートレート全体の動きを唇の動き、まばたき、頭のポーズ、胴体の動きに分解する領域固有の変形フィールドを導入します。
2 つのカスケード変形フィールドを通じて駆動信号とそれに関連する領域を階層的にモデル化することで、動的精度が大幅に向上し、合成アーチファクトが最小限に抑えられます。
さらに、マルチアイデンティティビデオから一般化可能な動的および静的対応を学習すると同時に、ID 固有の動的および静的特徴を抽出して個々のキャラクターの描写を洗練するプラグアンドプレイモジュールである ID-Aware Knowledge Transfer を提案します。
包括的な評価により、LokiTalk は以前の方法と比較して優れた高忠実度の結果とトレーニング効率を提供することが実証されました。
コードは承認され次第公開されます。

要約(オリジナル)

Despite significant progress in talking head synthesis since the introduction of Neural Radiance Fields (NeRF), visual artifacts and high training costs persist as major obstacles to large-scale commercial adoption. We propose that identifying and establishing fine-grained and generalizable correspondences between driving signals and generated results can simultaneously resolve both problems. Here we present LokiTalk, a novel framework designed to enhance NeRF-based talking heads with lifelike facial dynamics and improved training efficiency. To achieve fine-grained correspondences, we introduce Region-Specific Deformation Fields, which decompose the overall portrait motion into lip movements, eye blinking, head pose, and torso movements. By hierarchically modeling the driving signals and their associated regions through two cascaded deformation fields, we significantly improve dynamic accuracy and minimize synthetic artifacts. Furthermore, we propose ID-Aware Knowledge Transfer, a plug-and-play module that learns generalizable dynamic and static correspondences from multi-identity videos, while simultaneously extracting ID-specific dynamic and static features to refine the depiction of individual characters. Comprehensive evaluations demonstrate that LokiTalk delivers superior high-fidelity results and training efficiency compared to previous methods. The code will be released upon acceptance.

arxiv情報

著者 Tianqi Li,Ruobing Zheng,Bonan Li,Zicheng Zhang,Meng Wang,Jingdong Chen,Ming Yang
発行日 2024-12-23 14:15:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク