要約
音声駆動の 3D フェイシャル アニメーションは最近大幅に改善されましたが、関連作品のほとんどは音響モダリティのみを利用し、視覚的およびテキストの手がかりの影響を無視しているため、精度と一貫性の点で満足のいく結果が得られません。
私たちは、視覚的および文字による手がかりは重要な情報ではないと主張します。
したがって、顔アニメーションの精度を向上させるために、補完的な擬似マルチモーダル機能を使用する新しいフレームワーク、つまり PMMTalk を提案します。
このフレームワークには、PMMTalk エンコーダ、クロスモーダル アラインメント モジュール、および PMMTalk デコーダの 3 つのモジュールが必要です。
具体的には、PMMTalk エンコーダは、既製のトーキング ヘッド生成アーキテクチャと音声認識テクノロジを採用して、音声から視覚情報とテキスト情報をそれぞれ抽出します。
続いて、クロスモーダル位置合わせモジュールが、音声、画像、テキストの特徴を時間レベルおよび意味レベルで位置合わせします。
次に、PMMTalk デコーダを使用して、口パクの顔のブレンド形状係数を予測します。
従来の方法とは異なり、PMMTalk では追加のランダムな参照顔画像のみが必要ですが、より正確な結果が得られます。
さらに、顔のブレンドシェイプ係数を導入することにより、標準的なアニメーション制作ワークフローにシームレスに統合されるため、アーティストにとっても使いやすいものになっています。
最後に、3D 会話顔データセットが不足していることを考慮して、大規模な 3D 中国オーディオビジュアル顔アニメーション (3D-CAVFA) データセットを紹介します。
広範な実験とユーザー調査により、当社のアプローチが最先端技術を上回ることが示されています。
補足ビデオをご覧になることをお勧めします。
要約(オリジナル)
Speech-driven 3D facial animation has improved a lot recently while most related works only utilize acoustic modality and neglect the influence of visual and textual cues, leading to unsatisfactory results in terms of precision and coherence. We argue that visual and textual cues are not trivial information. Therefore, we present a novel framework, namely PMMTalk, using complementary Pseudo Multi-Modal features for improving the accuracy of facial animation. The framework entails three modules: PMMTalk encoder, cross-modal alignment module, and PMMTalk decoder. Specifically, the PMMTalk encoder employs the off-the-shelf talking head generation architecture and speech recognition technology to extract visual and textual information from speech, respectively. Subsequently, the cross-modal alignment module aligns the audio-image-text features at temporal and semantic levels. Then PMMTalk decoder is employed to predict lip-syncing facial blendshape coefficients. Contrary to prior methods, PMMTalk only requires an additional random reference face image but yields more accurate results. Additionally, it is artist-friendly as it seamlessly integrates into standard animation production workflows by introducing facial blendshape coefficients. Finally, given the scarcity of 3D talking face datasets, we introduce a large-scale 3D Chinese Audio-Visual Facial Animation (3D-CAVFA) dataset. Extensive experiments and user studies show that our approach outperforms the state of the art. We recommend watching the supplementary video.
arxiv情報
著者 | Tianshun Han,Shengnan Gui,Yiqing Huang,Baihui Li,Lijian Liu,Benjia Zhou,Ning Jiang,Quan Lu,Ruicong Zhi,Yanyan Liang,Du Zhang,Jun Wan |
発行日 | 2023-12-05 14:12:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google