UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

要約

音声駆動型3Dフェイシャルアニメーションは、入力音声をリアルな顔の動きにマッピングすることを目的としている。大きな進歩にもかかわらず、一貫性のない3Dアノテーションから制約が生じ、従来のモデルは特定のアノテーションに対する学習に制限され、それによって学習規模が制限されている。本研究では、様々なアノテーションを持つデータセットを効果的に活用するために設計された、マルチヘッドアーキテクチャを特徴とする統一モデルであるUniTalkerを提示する。学習の安定性を高め、マルチヘッド出力間の一貫性を確保するため、PCA、モデルウォームアップ、ピボット同一性埋め込みという3つの学習戦略を採用する。学習規模と多様性を拡大するため、5つの一般公開データセットと3つの新規キュレーションデータセットからなるA2F-Benchを構築した。これらのデータセットには、多言語の音声や歌など、幅広い音声ドメインが含まれており、これにより、通常1時間未満の一般的なデータセットから18.5時間まで学習データを拡張することができる。1つのUniTalkerモデルを訓練することで、BIWIデータセットで9.2%、Vocasetで13.7%という大幅な唇頂点エラー削減を達成した。さらに、事前訓練されたUniTalkerは、音声駆動型フェイシャルアニメーションタスクの基礎モデルとして有望である。事前に訓練されたUniTalkerを見たデータセットで微調整することで、各データセットでの性能がさらに向上し、A2F-Benchでは平均6.3%のエラー削減が見られた。さらに、半分のデータしかない未見のデータセットでUniTalkerを微調整すると、完全なデータセットで訓練された先行する最先端のモデルを上回る。コードとデータセットはプロジェクトページhttps://github.com/X-niper/UniTalker。

要約(オリジナル)

Audio-driven 3D facial animation aims to map input audio to realistic facial motion. Despite significant progress, limitations arise from inconsistent 3D annotations, restricting previous models to training on specific annotations and thereby constraining the training scale. In this work, we present UniTalker, a unified model featuring a multi-head architecture designed to effectively leverage datasets with varied annotations. To enhance training stability and ensure consistency among multi-head outputs, we employ three training strategies, namely, PCA, model warm-up, and pivot identity embedding. To expand the training scale and diversity, we assemble A2F-Bench, comprising five publicly available datasets and three newly curated datasets. These datasets contain a wide range of audio domains, covering multilingual speech voices and songs, thereby scaling the training data from commonly employed datasets, typically less than 1 hour, to 18.5 hours. With a single trained UniTalker model, we achieve substantial lip vertex error reductions of 9.2% for BIWI dataset and 13.7% for Vocaset. Additionally, the pre-trained UniTalker exhibits promise as the foundation model for audio-driven facial animation tasks. Fine-tuning the pre-trained UniTalker on seen datasets further enhances performance on each dataset, with an average error reduction of 6.3% on A2F-Bench. Moreover, fine-tuning UniTalker on an unseen dataset with only half the data surpasses prior state-of-the-art models trained on the full dataset. The code and dataset are available at the project page https://github.com/X-niper/UniTalker.

arxiv情報

著者 Xiangyu Fan,Jiaqi Li,Zhiqian Lin,Weiye Xiao,Lei Yang
発行日 2024-08-01 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク