RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network

要約

人間の一般的な音声による顔の生成は、コンピュータ ビジョンにおける困難なタスクです。
これまでの方法は、オーディオとビジュアルの同期において目覚ましい進歩を遂げてきましたが、現在の結果と実用化の間には依然として大きなギャップがあります。
課題は 2 つあります。1) 高精度のリップ シンクを実現するために、固有の個人の特性を保存すること。
2) リアルタイム パフォーマンスで高品質の顔のレンダリングを生成します。
この論文では、オーディオから表現へのトランスフォーマーと高忠実度の表現から顔へのレンダラーで構成される、新しい一般化されたオーディオ駆動フレームワーク RealTalk を提案します。
最初のコンポーネントでは、話す唇の動きに関連するアイデンティティと個人内変動特徴の両方を考慮します。
強化された顔の事前分布にクロスモーダルな注意を組み込むことで、唇の動きを音声と効果的に一致させることができ、表情予測の精度が向上します。
2 番目のコンポーネントでは、唇形状制御構造と顔テクスチャ参照構造を含む軽量の顔識別アライメント (FIA) モジュールを設計します。
この斬新な設計により、高度で非効率的な特徴調整モジュールに依存することなく、リアルタイムで詳細を生成することができます。
公開データセットでの定量的および定性的な実験結果は、口唇と音声の同期と生成品質の点でこの方法の明らかな利点を示しています。
さらに、私たちの方法は効率的であり、必要な計算リソースが少ないため、実際のアプリケーションのニーズを満たすのに適しています。

要約(オリジナル)

Person-generic audio-driven face generation is a challenging task in computer vision. Previous methods have achieved remarkable progress in audio-visual synchronization, but there is still a significant gap between current results and practical applications. The challenges are two-fold: 1) Preserving unique individual traits for achieving high-precision lip synchronization. 2) Generating high-quality facial renderings in real-time performance. In this paper, we propose a novel generalized audio-driven framework RealTalk, which consists of an audio-to-expression transformer and a high-fidelity expression-to-face renderer. In the first component, we consider both identity and intra-personal variation features related to speaking lip movements. By incorporating cross-modal attention on the enriched facial priors, we can effectively align lip movements with audio, thus attaining greater precision in expression prediction. In the second component, we design a lightweight facial identity alignment (FIA) module which includes a lip-shape control structure and a face texture reference structure. This novel design allows us to generate fine details in real-time, without depending on sophisticated and inefficient feature alignment modules. Our experimental results, both quantitative and qualitative, on public datasets demonstrate the clear advantages of our method in terms of lip-speech synchronization and generation quality. Furthermore, our method is efficient and requires fewer computational resources, making it well-suited to meet the needs of practical applications.

arxiv情報

著者 Xiaozhong Ji,Chuming Lin,Zhonggan Ding,Ying Tai,Junwei Zhu,Xiaobin Hu,Donghao Luo,Yanhao Ge,Chengjie Wang
発行日 2024-08-08 12:18:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク