要約
オーディオ主導の話し顔の生成は、デジタル コミュニケーションにおける困難なタスクです。
この分野では大きな進歩があったにもかかわらず、既存の手法のほとんどは音声とリップの同期に重点を置いており、リアルな話し顔を生み出すために重要なビジュアル品質、カスタマイズ、一般化などの側面が見落とされがちです。
これらの制限に対処するために、PortraitTalk という名前の、新しくカスタマイズ可能なワンショット音声駆動の話し顔生成フレームワークを導入します。
私たちが提案する方法は、IdentityNet と AnimateNet という 2 つの主要コンポーネントで構成される潜在拡散フレームワークを利用します。
IdentityNet は、生成されたビデオ フレーム全体でアイデンティティの特徴を一貫して保持するように設計されており、AnimateNet は時間的コヒーレンスとモーションの一貫性を強化することを目的としています。
このフレームワークは、オーディオ入力とリファレンス画像も統合するため、既存のアプローチで普及しているリファレンス形式のビデオへの依存が軽減されます。
PortraitTalk の主な革新は、分離されたクロスアテンション メカニズムによるテキスト プロンプトの組み込みであり、これにより、生成されたビデオに対するクリエイティブな制御が大幅に拡張されます。
新しく開発された評価指標を含む広範な実験を通じて、私たちのモデルは最先端の方法よりも優れたパフォーマンスを実証し、現実世界のアプリケーションに適したカスタマイズ可能なリアルな話し顔を生成するための新しい標準を確立しました。
要約(オリジナル)
Audio-driven talking face generation is a challenging task in digital communication. Despite significant progress in the area, most existing methods concentrate on audio-lip synchronization, often overlooking aspects such as visual quality, customization, and generalization that are crucial to producing realistic talking faces. To address these limitations, we introduce a novel, customizable one-shot audio-driven talking face generation framework, named PortraitTalk. Our proposed method utilizes a latent diffusion framework consisting of two main components: IdentityNet and AnimateNet. IdentityNet is designed to preserve identity features consistently across the generated video frames, while AnimateNet aims to enhance temporal coherence and motion consistency. This framework also integrates an audio input with the reference images, thereby reducing the reliance on reference-style videos prevalent in existing approaches. A key innovation of PortraitTalk is the incorporation of text prompts through decoupled cross-attention mechanisms, which significantly expands creative control over the generated videos. Through extensive experiments, including a newly developed evaluation metric, our model demonstrates superior performance over the state-of-the-art methods, setting a new standard for the generation of customizable realistic talking faces suitable for real-world applications.
arxiv情報
著者 | Fatemeh Nazarieh,Zhenhua Feng,Diptesh Kanojia,Muhammad Awais,Josef Kittler |
発行日 | 2024-12-10 18:51:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google