MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation

要約

ビデオ普及モデルの最近の進歩により、リアルなオーディオ主導のトーキングビデオ生成の新たな可能性が解き放たれました。
ただし、シームレスな音声とリップの同期を実現し、長期的なアイデンティティの一貫性を維持し、生成されたトーキングビデオで自然で音声に合わせた表現を生成することは、依然として大きな課題です。
これらの課題に対処するために、私たちは、アイデンティティ一貫性のある表現力豊かなトーキングビデオを生成するための、エンドツーエンドのオーディオ駆動型ポートレートアニメーションアプローチであるメモリ誘導型 EMOtion-aware diffusion (MEMO) を提案します。
私たちのアプローチは、2 つの主要なモジュールを中心に構築されています。(1) 記憶誘導型時間モジュール。線形注意を介して時間モデリングをガイドするために、より長い過去のコンテキストからの情報を保存する記憶状態を開発することで、長期的な同一性の一貫性と動作の滑らかさを強化します。
(2) 感情認識オーディオモジュール。従来のクロスアテンションをマルチモーダルアテンションに置き換えて、オーディオとビデオのインタラクションを強化するとともに、オーディオから感情を検出して感情適応レイヤーノルムを通じて表情を洗練します。
広範な定量的および定性的結果は、MEMO がさまざまな画像および音声タイプにわたってより現実的なトーキングビデオを生成し、全体的な品質、音声とリップの同期、アイデンティティの一貫性、および表情と感情の一致において最先端の方法を上回ることを示しています。

要約(オリジナル)

Recent advances in video diffusion models have unlocked new potential for realistic audio-driven talking video generation. However, achieving seamless audio-lip synchronization, maintaining long-term identity consistency, and producing natural, audio-aligned expressions in generated talking videos remain significant challenges. To address these challenges, we propose Memory-guided EMOtion-aware diffusion (MEMO), an end-to-end audio-driven portrait animation approach to generate identity-consistent and expressive talking videos. Our approach is built around two key modules: (1) a memory-guided temporal module, which enhances long-term identity consistency and motion smoothness by developing memory states to store information from a longer past context to guide temporal modeling via linear attention; and (2) an emotion-aware audio module, which replaces traditional cross attention with multi-modal attention to enhance audio-video interaction, while detecting emotions from audio to refine facial expressions via emotion adaptive layer norm. Extensive quantitative and qualitative results demonstrate that MEMO generates more realistic talking videos across diverse image and audio types, outperforming state-of-the-art methods in overall quality, audio-lip synchronization, identity consistency, and expression-emotion alignment.

arxiv情報

著者	Longtao Zheng,Yifan Zhang,Hanzhong Guo,Jiachun Pan,Zhenxiong Tan,Jiahao Lu,Chuanxin Tang,Bo An,Shuicheng Yan
発行日	2024-12-05 18:57:26+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー