Takin-ADA: Emotion Controllable Audio-Driven Animation with Canonical and Landmark Loss Optimization

要約

既存のオーディオ駆動型の顔アニメーション手法は、表情漏れ、非効果的な微妙な表情の伝達、オーディオ駆動型の不正確な同期などの重大な課題に直面しています。
これらの問題は、モーション表現の制限と顔の表情のきめ細かな制御の欠如に起因することがわかりました。
これらの問題に対処するために、リアルタイムのオーディオ駆動のポートレート アニメーションのための新しい 2 段階のアプローチである Taron-ADA を紹介します。
最初の段階では、不要な表現漏れを削減しながら、微妙な表現の伝達を強化する特殊な損失関数を導入します。
第 2 段階では、高度なオーディオ処理技術を利用してリップシンクの精度を向上させます。
私たちの手法は、正確な唇の動きを生成するだけでなく、顔の表情や頭の動きを柔軟に制御することも可能にします。
Taron-ADA は、RTX 4090 GPU で最大 42 FPS の高解像度 (512×512) フェイシャル アニメーションを実現し、既存の商用ソリューションを上回るパフォーマンスを実現します。
広範な実験により、私たちのモデルがビデオ品質、顔のダイナミクスのリアリズム、自然な頭の動きの点で以前の方法を大幅に上回り、オーディオ駆動の顔アニメーションの分野で新たなベンチマークを確立したことが実証されました。

要約(オリジナル)

Existing audio-driven facial animation methods face critical challenges, including expression leakage, ineffective subtle expression transfer, and imprecise audio-driven synchronization. We discovered that these issues stem from limitations in motion representation and the lack of fine-grained control over facial expressions. To address these problems, we present Takin-ADA, a novel two-stage approach for real-time audio-driven portrait animation. In the first stage, we introduce a specialized loss function that enhances subtle expression transfer while reducing unwanted expression leakage. The second stage utilizes an advanced audio processing technique to improve lip-sync accuracy. Our method not only generates precise lip movements but also allows flexible control over facial expressions and head motions. Takin-ADA achieves high-resolution (512×512) facial animations at up to 42 FPS on an RTX 4090 GPU, outperforming existing commercial solutions. Extensive experiments demonstrate that our model significantly surpasses previous methods in video quality, facial dynamics realism, and natural head movements, setting a new benchmark in the field of audio-driven facial animation.

arxiv情報

著者 Bin Lin,Yanzhen Yu,Jianhao Ye,Ruitao Lv,Yuguang Yang,Ruoye Xie,Pan Yu,Hongbin Zhou
発行日 2024-10-18 08:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク