DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

要約

拡散モデルは、さまざまな下流の生成タスクで目覚ましい成功を収めていますが、重要かつ挑戦的な表現力豊かなトーキング ヘッドの生成ではまだ研究が進んでいません。
この研究では、このギャップを埋めるための DreamTalk フレームワークを提案します。このフレームワークは、表現力豊かなトーキング ヘッドを生成する際の拡散モデルの可能性を引き出す綿密な設計を採用しています。
具体的には、DreamTalk は 3 つの重要なコンポーネントで構成されています。ノイズ除去ネットワーク、スタイル認識リップ エキスパート、スタイル プレディクターです。
拡散ベースのノイズ除去ネットワークは、さまざまな表現にわたって高品質のオーディオ駆動の顔の動きを一貫して合成できます。
リップモーションの表現力と正確性を高めるために、話し方を意識しながらリップシンクをガイドできる、スタイルを意識したリップエキスパートを導入します。
表現の参照ビデオやテキストの必要性を排除するために、追加の拡散ベースのスタイル予測子を利用して、音声から直接ターゲットの表現を予測します。
これにより、DreamTalk は強力な拡散モデルを利用して表情豊かな顔を効果的に生成し、高価なスタイル参照への依存を減らすことができます。
実験結果は、DreamTalk が、多様な話し方でフォトリアリスティックな話し顔を生成し、正確な唇の動きを実現し、既存の最先端の対応物を上回ることができることを示しています。

要約(オリジナル)

Diffusion models have shown remarkable success in a variety of downstream generative tasks, yet remain under-explored in the important and challenging expressive talking head generation. In this work, we propose a DreamTalk framework to fulfill this gap, which employs meticulous design to unlock the potential of diffusion models in generating expressive talking heads. Specifically, DreamTalk consists of three crucial components: a denoising network, a style-aware lip expert, and a style predictor. The diffusion-based denoising network is able to consistently synthesize high-quality audio-driven face motions across diverse expressions. To enhance the expressiveness and accuracy of lip motions, we introduce a style-aware lip expert that can guide lip-sync while being mindful of the speaking styles. To eliminate the need for expression reference video or text, an extra diffusion-based style predictor is utilized to predict the target expression directly from the audio. By this means, DreamTalk can harness powerful diffusion models to generate expressive faces effectively and reduce the reliance on expensive style references. Experimental results demonstrate that DreamTalk is capable of generating photo-realistic talking faces with diverse speaking styles and achieving accurate lip motions, surpassing existing state-of-the-art counterparts.

arxiv情報

著者 Yifeng Ma,Shiwei Zhang,Jiayu Wang,Xiang Wang,Yingya Zhang,Zhidong Deng
発行日 2023-12-15 13:15:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク