SyncDiff: Diffusion-based Talking Head Synthesis with Bottlenecked Temporal Visual Prior for Improved Synchronization

要約

スピーチツーリップ合成とも呼ばれるトーキングヘッド合成は、指定されたオーディオトラックと整合する顔の動きを再構築します。
合成されたビデオは、主に2つの側面、リップスピーチの同期と画像の忠実度で評価されます。
最近の研究は、GANベースおよび拡散ベースのモデルがこのタスクで最先端の(SOTA)パフォーマンスを達成し、拡散ベースのモデルが優れた画像の忠実度を達成するが、GANベースのカウンターパートと比較して低い同期を実現することを示しています。
この目的のために、拡散プロセスへの条件付けとして、Avhubertから抽出された情報ボトルネックと顔面に基づいたオーディオ機能を備えた時間的ポーズフレームを使用して、拡散ベースのモデルを改善するためのシンプルで効果的なアプローチであるSyncdiffを提案します。
他のSOTAモデルと直接比較するために、2つの正規のトーキングヘッドデータセット、LRS2およびLRS3のSyncdiffを評価します。
LRS2/LRS3データセットの実験は、Syncdiffが同期スコアを達成し、以前の拡散ベースの方法よりも比較的高い同期スコア27.7%/62.3%を達成することを示しています。

要約(オリジナル)

Talking head synthesis, also known as speech-to-lip synthesis, reconstructs the facial motions that align with the given audio tracks. The synthesized videos are evaluated on mainly two aspects, lip-speech synchronization and image fidelity. Recent studies demonstrate that GAN-based and diffusion-based models achieve state-of-the-art (SOTA) performance on this task, with diffusion-based models achieving superior image fidelity but experiencing lower synchronization compared to their GAN-based counterparts. To this end, we propose SyncDiff, a simple yet effective approach to improve diffusion-based models using a temporal pose frame with information bottleneck and facial-informative audio features extracted from AVHuBERT, as conditioning input into the diffusion process. We evaluate SyncDiff on two canonical talking head datasets, LRS2 and LRS3 for direct comparison with other SOTA models. Experiments on LRS2/LRS3 datasets show that SyncDiff achieves a synchronization score 27.7%/62.3% relatively higher than previous diffusion-based methods, while preserving their high-fidelity characteristics.

arxiv情報

著者 Xulin Fan,Heting Gao,Ziyi Chen,Peng Chang,Mei Han,Mark Hasegawa-Johnson
発行日 2025-03-17 16:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク