DiffDub: Person-generic Visual Dubbing Using Inpainting Renderer with Diffusion Auto-encoder

要約

高品質で人物に忠実なビジュアルアフレコを生成することは、依然として難題である。最近の技術革新では、2段階のパラダイムが登場し、レンダリングとリップシンクロのプロセスを切り離すことで、中間表現がパイプ役として機能するようになりました。しかし、これまでの方法論は、大まかなランドマークに依存したり、1人の話し手に限定されたりしており、パフォーマンスに限界がある。本稿では、DiffDubを提案する:拡散ベースのダビングである。まず、編集可能なゾーンと変更されていない領域を区切るためのマスクを組み込んだインペインティングレンダラーによって、拡散オートエンコーダを作成する。これにより、残りの部分を保持しながら、下側の顔領域をシームレスに塗りつぶすことができる。実験を通して、いくつかの課題に遭遇した。主に、セマンティック・エンコーダはロバスト性に欠け、高レベルの特徴を捉える能力を制約している。また、顔の位置関係を無視したモデリングを行ったため、フレーム間で口や鼻が揺れてしまった。これらの問題に対処するため、我々はデータ補強や補助的な視線誘導を含む多用途な戦略を採用している。さらに、コンフォーマベースのリファレンスエンコーダと、クロスアテンションメカニズムによって強化されたモーションジェネレータをカプセル化した。これにより、我々のモデルは、様々な参照による人物固有のテクスチャを学習することができ、対になったオーディオビジュアルデータへの依存を減らすことができる。我々の厳密な実験により、我々の画期的なアプローチが既存の手法をかなりのマージンで凌駕し、人物ジェネリックや多言語シナリオにおいてシームレスで明瞭な動画を提供することが包括的に強調された。

要約(オリジナル)

Generating high-quality and person-generic visual dubbing remains a challenge. Recent innovation has seen the advent of a two-stage paradigm, decoupling the rendering and lip synchronization process facilitated by intermediate representation as a conduit. Still, previous methodologies rely on rough landmarks or are confined to a single speaker, thus limiting their performance. In this paper, we propose DiffDub: Diffusion-based dubbing. We first craft the Diffusion auto-encoder by an inpainting renderer incorporating a mask to delineate editable zones and unaltered regions. This allows for seamless filling of the lower-face region while preserving the remaining parts. Throughout our experiments, we encountered several challenges. Primarily, the semantic encoder lacks robustness, constricting its ability to capture high-level features. Besides, the modeling ignored facial positioning, causing mouth or nose jitters across frames. To tackle these issues, we employ versatile strategies, including data augmentation and supplementary eye guidance. Moreover, we encapsulated a conformer-based reference encoder and motion generator fortified by a cross-attention mechanism. This enables our model to learn person-specific textures with varying references and reduces reliance on paired audio-visual data. Our rigorous experiments comprehensively highlight that our ground-breaking approach outpaces existing methods with considerable margins and delivers seamless, intelligible videos in person-generic and multilingual scenarios.

arxiv情報

著者 Tao Liu,Chenpeng Du,Shuai Fan,Feilong Chen,Kai Yu
発行日 2023-11-03 09:41:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク