MODA: Mapping-Once Audio-driven Portrait Animation with Dual Attentions

要約

オーディオ駆動のポートレート アニメーションは、指定されたオーディオによって調整されたポートレート ビデオを合成することを目的としています。
高忠実度でマルチモーダルなビデオ ポートレートのアニメーション化には、さまざまな用途があります。
これまでの方法では、さまざまなモデルをトレーニングしたり、特定のビデオから信号をサンプリングしたりすることで、さまざまなモーション モードをキャプチャし、高忠実度のポートレート ビデオを生成しようとしていました。
ただし、リップシンクと他の動き(頭のポーズや目のまばたきなど)との間の相関学習が欠けていると、通常は不自然な結果が生じます。
本稿では、複数人、多様、かつ忠実度の高い会話ポートレート生成のための統合システムを提案する。
私たちの方法には 3 つの段階が含まれています。つまり、1) デュアル アテンションを備えたマッピング ワンス ネットワーク (MODA) が、与えられた音声から会話表現を生成します。
MODA では、正確な口の動きと多様なモダリティをエンコードする二重注意モジュールを設計します。
2) フェイシャル コンポーザー ネットワークは高密度で詳細な顔のランドマークを生成し、3) 時間ガイド付きレンダラーは安定したビデオを合成します。
広範な評価により、提案されたシステムが以前の方法と比較してより自然で現実的なビデオポートレートを生成することが実証されました。

要約(オリジナル)

Audio-driven portrait animation aims to synthesize portrait videos that are conditioned by given audio. Animating high-fidelity and multimodal video portraits has a variety of applications. Previous methods have attempted to capture different motion modes and generate high-fidelity portrait videos by training different models or sampling signals from given videos. However, lacking correlation learning between lip-sync and other movements (e.g., head pose/eye blinking) usually leads to unnatural results. In this paper, we propose a unified system for multi-person, diverse, and high-fidelity talking portrait generation. Our method contains three stages, i.e., 1) Mapping-Once network with Dual Attentions (MODA) generates talking representation from given audio. In MODA, we design a dual-attention module to encode accurate mouth movements and diverse modalities. 2) Facial composer network generates dense and detailed face landmarks, and 3) temporal-guided renderer syntheses stable videos. Extensive evaluations demonstrate that the proposed system produces more natural and realistic video portraits compared to previous methods.

arxiv情報

著者 Yunfei Liu,Lijian Lin,Fei Yu,Changyin Zhou,Yu Li
発行日 2023-07-19 14:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク