OpFlowTalker: Realistic and Natural Talking Face Generation via Optical Flow Guidance

要約

リアルで自然な、唇で読み取れる話し顔ビデオを作成することは、依然として困難な課題です。
これまでの研究では、主に単一フレーム画像の生成と位置合わせに重点が置かれており、フレーム間の遷移の滑らかさや時間的依存性は見落とされていました。
これにより、実際の設定、特に複雑な顔データや音声コンテンツを処理する場合、視覚的な品質や効果が損なわれることが多く、意味的に不一致な視覚的錯覚を引き起こすことがよくありました。
具体的には、合成ビデオでは一般に、組織化されていない唇の動きが特徴的であり、理解や認識が困難でした。
これらの制限を克服するために、このホワイトペーパーでは、顔画像の生成をガイドし、フレーム間の連続性と意味の一貫性を強化するオプティカル フローのアプリケーションを紹介します。
私たちは、直接的な画像予測ではなく、音声入力から予測されるオプティカル フローの変化を利用する新しいアプローチである「OpFlowTalker」を提案します。
この方法は、画像の遷移を滑らかにし、変化を意味論的なコンテンツに合わせます。
さらに、シーケンス フュージョン技術を採用して単一フレームの独立した生成を置き換え、コンテキスト情報を保存し、時間的一貫性を維持します。
また、顔全体と唇の動きの両方を制御し、領域のダイナミクスのバランスをとることで視覚合成を最適化するオプティカル フロー同期モジュールも開発しました。
さらに、合成ビデオの読唇性を正確に測定するビジュアル テキスト一貫性スコア (VTCS) を導入します。
広範な経験的証拠により、私たちのアプローチの有効性が検証されています。

要約(オリジナル)

Creating realistic, natural, and lip-readable talking face videos remains a formidable challenge. Previous research primarily concentrated on generating and aligning single-frame images while overlooking the smoothness of frame-to-frame transitions and temporal dependencies. This often compromised visual quality and effects in practical settings, particularly when handling complex facial data and audio content, which frequently led to semantically incongruent visual illusions. Specifically, synthesized videos commonly featured disorganized lip movements, making them difficult to understand and recognize. To overcome these limitations, this paper introduces the application of optical flow to guide facial image generation, enhancing inter-frame continuity and semantic consistency. We propose ‘OpFlowTalker’, a novel approach that utilizes predicted optical flow changes from audio inputs rather than direct image predictions. This method smooths image transitions and aligns changes with semantic content. Moreover, it employs a sequence fusion technique to replace the independent generation of single frames, thus preserving contextual information and maintaining temporal coherence. We also developed an optical flow synchronization module that regulates both full-face and lip movements, optimizing visual synthesis by balancing regional dynamics. Furthermore, we introduce a Visual Text Consistency Score (VTCS) that accurately measures lip-readability in synthesized videos. Extensive empirical evidence validates the effectiveness of our approach.

arxiv情報

著者 Shuheng Ge,Haoyu Xing,Li Zhang,Xiangqian Wu
発行日 2024-05-23 15:42:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク