DiffSpeaker: Speech-Driven 3D Facial Animation with Diffusion Transformer

要約

音声駆動の 3D 顔アニメーションは、多くのマルチメディア アプリケーションにとって重要です。
最近の研究では、このタスクに拡散モデルまたはトランスフォーマー アーキテクチャのいずれかを使用することが有望であることが示されています。
ただし、単に集約するだけではパフォーマンスの向上にはつながりません。
これは、Transformer が Diffusion フレームワーク内でデノイザーとして効果的に機能するために重要な、ペアの audio-4D データが不足していることが原因であると考えられます。
この問題に取り組むために、新しいバイアス付き条件付き注意モジュールを備えた Transformer ベースのネットワークである DiffSpeaker を紹介します。
これらのモジュールは、標準的なトランスフォーマーの従来の自己/相互注意の代替として機能し、関連するタスク固有の条件と拡散関連の条件の両方に集中するように注意メカニズムを誘導する、慎重に設計されたバイアスを組み込んでいます。
また、拡散パラダイムにおける正確な口唇同期と非言語的表情の間のトレードオフについても調査します。
実験では、私たちのモデルが既存のベンチマークで最先端のパフォーマンスを達成するだけでなく、顔の動きを並行して生成する機能により推論速度が速いことも示しています。

要約(オリジナル)

Speech-driven 3D facial animation is important for many multimedia applications. Recent work has shown promise in using either Diffusion models or Transformer architectures for this task. However, their mere aggregation does not lead to improved performance. We suspect this is due to a shortage of paired audio-4D data, which is crucial for the Transformer to effectively perform as a denoiser within the Diffusion framework. To tackle this issue, we present DiffSpeaker, a Transformer-based network equipped with novel biased conditional attention modules. These modules serve as substitutes for the traditional self/cross-attention in standard Transformers, incorporating thoughtfully designed biases that steer the attention mechanisms to concentrate on both the relevant task-specific and diffusion-related conditions. We also explore the trade-off between accurate lip synchronization and non-verbal facial expressions within the Diffusion paradigm. Experiments show our model not only achieves state-of-the-art performance on existing benchmarks, but also fast inference speed owing to its ability to generate facial motions in parallel.

arxiv情報

著者 Zhiyuan Ma,Xiangyu Zhu,Guojun Qi,Chen Qian,Zhaoxiang Zhang,Zhen Lei
発行日 2024-02-08 14:39:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク