DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoder

要約

高品質で人物に合わせたビジュアル ダビングを生成することは依然として課題です。
最近の技術革新では、中間表現を導管として促進するレンダリングとリップシンクのプロセスを切り離す、2 段階パラダイムの出現が見られます。
それでも、以前の方法論は大まかなランドマークに依存していたり​​、単一の話者に限定されていたりするため、パフォーマンスが制限されていました。
この論文では、DiffDub: 拡散ベースのダビングを提案します。
まず、編集可能ゾーンと変更されていない領域を描写するマスクを組み込んだ修復レンダラーによって拡散オート エンコーダを作成します。
これにより、残りの部分を維持しながら、顔の下側領域をシームレスに充填することができます。
実験を通じて、私たちはいくつかの課題に直面しました。
主に、セマンティック エンコーダは堅牢性に欠けており、高レベルの特徴をキャプチャする能力が制限されています。
さらに、モデリングでは顔の位置が無視され、フレーム間で口や鼻の震えが発生しました。
これらの問題に取り組むために、私たちはデータの増強や補助的な視覚誘導などの多用途の戦略を採用しています。
さらに、クロスアテンション メカニズムによって強化されたコンフォーマーベースのリファレンス エンコーダーとモーション ジェネレーターをカプセル化しました。
これにより、モデルはさまざまな参照を使用して人固有のテクスチャを学習できるようになり、ペアになった視聴覚データへの依存が軽減されます。
私たちの厳密な実験は、私たちの画期的なアプローチが既存の方法を大幅に上回り、個人に合わせた多言語シナリオでシームレスでわかりやすいビデオを提供することを包括的に強調しています。

要約(オリジナル)

Generating high-quality and person-generic visual dubbing remains a challenge. Recent innovation has seen the advent of a two-stage paradigm, decoupling the rendering and lip synchronization process facilitated by intermediate representation as a conduit. Still, previous methodologies rely on rough landmarks or are confined to a single speaker, thus limiting their performance. In this paper, we propose DiffDub: Diffusion-based dubbing. We first craft the Diffusion auto-encoder by an inpainting renderer incorporating a mask to delineate editable zones and unaltered regions. This allows for seamless filling of the lower-face region while preserving the remaining parts. Throughout our experiments, we encountered several challenges. Primarily, the semantic encoder lacks robustness, constricting its ability to capture high-level features. Besides, the modeling ignored facial positioning, causing mouth or nose jitters across frames. To tackle these issues, we employ versatile strategies, including data augmentation and supplementary eye guidance. Moreover, we encapsulated a conformer-based reference encoder and motion generator fortified by a cross-attention mechanism. This enables our model to learn person-specific textures with varying references and reduces reliance on paired audio-visual data. Our rigorous experiments comprehensively highlight that our ground-breaking approach outpaces existing methods with considerable margins and delivers seamless, intelligible videos in person-generic and multilingual scenarios.

arxiv情報

著者 Tao Liu,Chenpeng Du,Shuai Fan,Feilong Chen,Kai Yu
発行日 2024-01-12 10:25:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク