PAHA: Parts-Aware Audio-Driven Human Animation with Diffusion Model

要約

オーディオ駆動型のヒューマンアニメーションテクノロジーは、ヒューマンコンピューターの相互作用で広く使用されており、拡散モデルの出現により、その開発がさらに進歩しました。
現在、ほとんどの方法は、マルチステージの生成と中間表現に依存しており、特定の前景領域の生成品質とオーディオモーションの一貫性に長い推論時間と問題をもたらしています。
これらの欠点は、主に局所的な細粒の監視されたガイダンスがないためです。
上記の課題に対処するために、拡散モデルを備えたエンドツーエンドのオーディオ駆動型の上半身の人間アニメーションフレームワークであるPahaを提案します。
2つの重要な方法を紹介します:部品認識の再重視(PAR)と部品の一貫性の強化(PCE)。
PARは、ポーズ信頼スコアに基づいて地域のトレーニング損失の重みを動的に調整し、視覚品質を効果的に改善します。
PCEは、拡散ベースの地域の視聴覚分類器を構築および訓練して、モーションと共同スピーチのオーディオの一貫性を改善します。
その後、前述の分類器、シーケンシャルガイダンス(SG)および差動ガイダンス(DG)の2つの新しい推論ガイダンス方法を、それぞれ効率と品質のバランスをとることができます。
さらに、この分野での研究と検証を進めるために、最初の中国のニュースアンカースピーチデータセットであるCNAを構築します。
大規模な実験結果とユーザー研究は、PAHAがオーディオモーションの調整とビデオ関連の評価で既存の方法を大幅に上回ることを示しています。
コードとCNASデータセットは、受け入れられるとリリースされます。

要約(オリジナル)

Audio-driven human animation technology is widely used in human-computer interaction, and the emergence of diffusion models has further advanced its development. Currently, most methods rely on multi-stage generation and intermediate representations, resulting in long inference time and issues with generation quality in specific foreground regions and audio-motion consistency. These shortcomings are primarily due to the lack of localized fine-grained supervised guidance. To address above challenges, we propose PAHA, an end-to-end audio-driven upper-body human animation framework with diffusion model. We introduce two key methods: Parts-Aware Re-weighting (PAR) and Parts Consistency Enhancement (PCE). PAR dynamically adjusts regional training loss weights based on pose confidence scores, effectively improving visual quality. PCE constructs and trains diffusion-based regional audio-visual classifiers to improve the consistency of motion and co-speech audio. Afterwards, we design two novel inference guidance methods for the foregoing classifiers, Sequential Guidance (SG) and Differential Guidance (DG), to balance efficiency and quality respectively. Additionally, we build CNAS, the first public Chinese News Anchor Speech dataset, to advance research and validation in this field. Extensive experimental results and user studies demonstrate that PAHA significantly outperforms existing methods in audio-motion alignment and video-related evaluations. The codes and CNAS dataset will be released upon acceptance.

arxiv情報

著者 Y. B. Wang,S. Z. Zhou,J. F. Wu,T. Hu,J. N. Zhang,Y. Liu
発行日 2025-05-07 03:47:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク