GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer

要約

音声によるトーキングヘッドの生成は、拡張現実などの多くの下流アプリケーションにとって重要ですが、困難なタスクです。
既存の手法は、自己回帰モデルまたは拡散モデルを利用することで顕著なパフォーマンスを達成しています。
しかし、ほとんどは依然としてモダリティの不一致、特にオーディオとメッシュのモダリティ間の不整合に悩まされており、これがモーションの多様性とリップシンクの精度の不一致を引き起こします。
この問題に対処するために、この文書では、グラフ潜在拡散トランスフォーマーを採用した新しい音声駆動型 3D 顔アニメーション モデルである GLDiTalker を紹介します。
GLDiTalker の背後にある中心的なアイデアは、オーディオ メッシュ モダリティの不整合は、信号を潜在的な量子化された時空間に拡散することによって解決できるということです。
これを実現するために、GLDiTalker は量子化時空間拡散トレーニング パイプラインを構築します。このパイプラインは、グラフ拡張量子化空間学習ステージと時空間駆動潜在拡散ステージで構成されます。
第 1 段階ではリップシンクの精度が確保され、第 2 段階ではモーションの多様性が強化されます。
これらのステージを組み合わせることで、GLDiTalker は時間的および空間的に安定した現実的なモデルを生成できるようになります。
広く使用されているいくつかのベンチマークでの広範な評価により、私たちの手法が既存の手法と比較して優れたパフォーマンスを達成することが実証されています。

要約(オリジナル)

Speech-driven talking head generation is an important but challenging task for many downstream applications such as augmented reality. Existing methods have achieved remarkable performance by utilizing autoregressive models or diffusion models. However, most still suffer from modality inconsistencies, specifically the misalignment between audio and mesh modalities, which causes inconsistencies in motion diversity and lip-sync accuracy. To address this issue, this paper introduces GLDiTalker, a novel speech-driven 3D facial animation model that employs a Graph Latent Diffusion Transformer. The core idea behind GLDiTalker is that the audio-mesh modality misalignment can be resolved by diffusing the signal in a latent quantilized spatial-temporal space. To achieve this, GLDiTalker builds upon a quantilized space-time diffusion training pipeline, which consists of a Graph Enhanced Quantilized Space Learning Stage and a Space-Time Powered Latent Diffusion Stage. The first stage ensures lip-sync accuracy, while the second stage enhances motion diversity. Together, these stages enable GLDiTalker to generate temporally and spatially stable, realistic models. Extensive evaluations on several widely used benchmarks demonstrate that our method achieves superior performance compared to existing methods.

arxiv情報

著者 Yihong Lin,Zhaoxin Fan,Lingyu Xiong,Liang Peng,Xiandong Li,Wenxiong Kang,Xianjia Wu,Songju Lei,Huang Xu
発行日 2024-08-16 14:45:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク