TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model

要約

最近、顔アニメーション技術の急速な発展により、2D 話すアバターが日常のシナリオにますます参加するようになりました。
しかし、既存の作品の多くは人体の明示的な制御を無視しています。
この論文では、話している人物の顔だけでなく胴体やジェスチャーの動きも駆動することを提案します。
拡散モデルの最近の進歩に触発されて、私たちは、単眼ビデオの短い映像だけから高忠実度のアバター再現を可能にする、Motion-Enhanced Textural-Aware ModeLing for Speaking Avatar Reenactment (TALK-Act) フレームワークを提案します。
私たちの重要なアイデアは、拡散モデリングにおける明示的なモーション ガイダンスによってテクスチャ認識を強化することです。
具体的には、中間ガイダンスとして 2D および 3D の構造情報を慎重に構築します。
最近の普及モデルは制御情報の注入にサイドネットワークを採用していますが、個人固有の微調整を行っても時間的に安定した結果を合成できません。
私たちは、駆動信号とターゲット信号の間の結合を強化するために、モーション強化テクスチャ アライメント モジュールを提案します。
さらに、手の形状を維持する際の困難を解決するために、記憶ベースの手回復モジュールを構築します。
事前トレーニング後、私たちのモデルはわずか 30 秒間の人物固有のデータで高忠実度の 2D アバターの再現を実現できます。
広範な実験により、私たちが提案したフレームワークの有効性と優位性が実証されています。
リソースは https://guanjz20.github.io/projects/TALK-Act でご覧いただけます。

要約(オリジナル)

Recently, 2D speaking avatars have increasingly participated in everyday scenarios due to the fast development of facial animation techniques. However, most existing works neglect the explicit control of human bodies. In this paper, we propose to drive not only the faces but also the torso and gesture movements of a speaking figure. Inspired by recent advances in diffusion models, we propose the Motion-Enhanced Textural-Aware ModeLing for SpeaKing Avatar Reenactment (TALK-Act) framework, which enables high-fidelity avatar reenactment from only short footage of monocular video. Our key idea is to enhance the textural awareness with explicit motion guidance in diffusion modeling. Specifically, we carefully construct 2D and 3D structural information as intermediate guidance. While recent diffusion models adopt a side network for control information injection, they fail to synthesize temporally stable results even with person-specific fine-tuning. We propose a Motion-Enhanced Textural Alignment module to enhance the bond between driving and target signals. Moreover, we build a Memory-based Hand-Recovering module to help with the difficulties in hand-shape preserving. After pre-training, our model can achieve high-fidelity 2D avatar reenactment with only 30 seconds of person-specific data. Extensive experiments demonstrate the effectiveness and superiority of our proposed framework. Resources can be found at https://guanjz20.github.io/projects/TALK-Act.

arxiv情報

著者 Jiazhi Guan,Quanwei Yang,Kaisiyuan Wang,Hang Zhou,Shengyi He,Zhiliang Xu,Haocheng Feng,Errui Ding,Jingdong Wang,Hongtao Xie,Youjian Zhao,Ziwei Liu
発行日 2024-10-14 16:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク