DualTalker: A Cross-Modal Dual Learning Approach for Speech-Driven 3D Facial Animation

要約

近年、オーディオ駆動の 3D フェイシャル アニメーションが、特に仮想現実、ゲーム、ビデオ会議などのアプリケーションで大きな注目を集めています。
ただし、顔の表情の複雑かつ微妙なダイナミクスを正確にモデル化することは依然として課題です。
既存の研究のほとんどは、顔アニメーションのタスクを単一の回帰問題としてアプローチしており、多くの場合、音声信号と 3D 顔アニメーションの間の固有の相互モーダル関係を捉えることができず、それらの固有の一貫性が見落とされています。
さらに、3D オーディオビジュアル データセットの利用可能性が限られているため、小さなサイズのサンプルを使用して学習するアプローチは一般化性に乏しく、パフォーマンスが低下します。
これらの問題に対処するために、この研究では、データ使用効率の向上とクロスモーダル依存関係の関連付けを目的とした、DualTalker と呼ばれるクロスモーダル二重学習フレームワークを提案します。
このフレームワークは、プライマリ タスク (オーディオ駆動のフェイシャル アニメーション) とその二重タスク (読唇術) を組み合わせてトレーニングされ、共通のオーディオ/モーション エンコーダ コンポーネントを共有します。
当社の共同トレーニング フレームワークは、両方のタスクからの情報を活用し、顔の動きと音声の補完関係を明示的に利用してパフォーマンスを向上させることで、より効率的なデータの使用を促進します。
さらに、補助的なクロスモーダル一貫性損失を導入して、クロスモーダルの相補的表現の根底にある潜在的な過度の平滑化を軽減し、微妙な表情のダイナミクスのマッピングを強化します。
VOCA および BIWI データセットに対して行われた広範な実験と知覚的ユーザー研究を通じて、私たちのアプローチが現在の最先端の方法を質的および量的に優れていることを実証しました。
コードとビデオのデモは https://github.com/sabrina-su/iadf.git で公開しています。

要約(オリジナル)

In recent years, audio-driven 3D facial animation has gained significant attention, particularly in applications such as virtual reality, gaming, and video conferencing. However, accurately modeling the intricate and subtle dynamics of facial expressions remains a challenge. Most existing studies approach the facial animation task as a single regression problem, which often fail to capture the intrinsic inter-modal relationship between speech signals and 3D facial animation and overlook their inherent consistency. Moreover, due to the limited availability of 3D-audio-visual datasets, approaches learning with small-size samples have poor generalizability that decreases the performance. To address these issues, in this study, we propose a cross-modal dual-learning framework, termed DualTalker, aiming at improving data usage efficiency as well as relating cross-modal dependencies. The framework is trained jointly with the primary task (audio-driven facial animation) and its dual task (lip reading) and shares common audio/motion encoder components. Our joint training framework facilitates more efficient data usage by leveraging information from both tasks and explicitly capitalizing on the complementary relationship between facial motion and audio to improve performance. Furthermore, we introduce an auxiliary cross-modal consistency loss to mitigate the potential over-smoothing underlying the cross-modal complementary representations, enhancing the mapping of subtle facial expression dynamics. Through extensive experiments and a perceptual user study conducted on the VOCA and BIWI datasets, we demonstrate that our approach outperforms current state-of-the-art methods both qualitatively and quantitatively. We have made our code and video demonstrations available at https://github.com/sabrina-su/iadf.git.

arxiv情報

著者 Guinan Su,Yanwu Yang,Zhifeng Li
発行日 2023-11-08 15:39:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク