HunyuanVideo-Avatar: High-Fidelity Audio-Driven Human Animation for Multiple Characters

要約

近年、オーディオ駆動型の人間のアニメーションの大きな進歩が目撃されています。
ただし、(i)文字の一貫性を維持しながら、非常に動的なビデオを生成し、(ii)文字とオーディオの間の正確な感情アライメントを実現し、(iii)マルチキャラクターオーディオ駆動型のアニメーションを可能にすることにあります。
これらの課題に対処するために、動的、感情制御可能な、マルチキャラクターダイアログビデオを同時に生成できるマルチモーダル拡散トランス(MM-DIT)ベースのモデルであるHunyuanvideo-Avatarを提案します。
具体的には、Hunyuanvideo-Avatarは3つの重要な革新を導入します。(i)キャラクター画像インジェクションモジュールは、従来の追加ベースのキャラクターコンディショニングスキームを置き換えるように設計されており、トレーニングと推論の間の固有の条件の不一致を排除します。
これにより、動的な動きと強いキャラクターの一貫性が保証されます。
(ii)オーディオ感情モジュール(AEM)が導入され、感情の参照画像からターゲット生成ビデオに感情的な手がかりを抽出して転送し、微調整された正確な感情スタイルコントロールを可能にします。
(iii)潜在的なオーディオアダプター(FAA)が提案されており、オーディオ駆動型の文字を潜在レベルのフェイスマスクで分離し、マルチキャラクターシナリオの交差に関する独立したオーディオインジェクションを可能にします。
これらの革新により、Hunyuanvideo-Avatarは、ベンチマークデータセットと新たに提案された野生のデータセットで最新の方法を上回り、動的で没入型のシナリオで現実的なアバターを生成します。

要約(オリジナル)

Recent years have witnessed significant progress in audio-driven human animation. However, critical challenges remain in (i) generating highly dynamic videos while preserving character consistency, (ii) achieving precise emotion alignment between characters and audio, and (iii) enabling multi-character audio-driven animation. To address these challenges, we propose HunyuanVideo-Avatar, a multimodal diffusion transformer (MM-DiT)-based model capable of simultaneously generating dynamic, emotion-controllable, and multi-character dialogue videos. Concretely, HunyuanVideo-Avatar introduces three key innovations: (i) A character image injection module is designed to replace the conventional addition-based character conditioning scheme, eliminating the inherent condition mismatch between training and inference. This ensures the dynamic motion and strong character consistency; (ii) An Audio Emotion Module (AEM) is introduced to extract and transfer the emotional cues from an emotion reference image to the target generated video, enabling fine-grained and accurate emotion style control; (iii) A Face-Aware Audio Adapter (FAA) is proposed to isolate the audio-driven character with latent-level face mask, enabling independent audio injection via cross-attention for multi-character scenarios. These innovations empower HunyuanVideo-Avatar to surpass state-of-the-art methods on benchmark datasets and a newly proposed wild dataset, generating realistic avatars in dynamic, immersive scenarios.

arxiv情報

著者 Yi Chen,Sen Liang,Zixiang Zhou,Ziyao Huang,Yifeng Ma,Junshu Tang,Qin Lin,Yuan Zhou,Qinglin Lu
発行日 2025-05-26 15:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク