要約
近年、音声駆動型ヒューマン・アニメーションが大きく進歩している。しかし、(i)キャラクタの一貫性を保ちながら非常にダイナミックな動画を生成すること、(ii)キャラクタと音声の間で正確な感情の位置合わせを実現すること、(iii)多キャラクタの音声駆動アニメーションを可能にすること、には重大な課題が残されている。これらの課題を解決するために、我々は、動的で、感情制御可能で、多キャラクターの対話動画を同時に生成できるマルチモーダル拡散変換器(MM-DiT)ベースのモデルであるHunyuanVideo-Avatarを提案する。具体的には、HunyuanVideo-Avatarは3つの重要な革新的技術を導入している。(i) 文字画像注入モジュールは、従来の加算ベースの文字条件付けスキームに取って代わるように設計されており、学習と推論の間に内在する条件の不一致を解消する。(ii)オーディオエモーションモジュール(AEM)が導入され、感情参照画像からターゲット生成ビデオに感情キューを抽出して転送し、きめ細かく正確な感情スタイル制御を可能にする。(iii)フェイスアウェアオーディオアダプタ(FAA)が提案され、オーディオ駆動キャラクタを潜在レベルのフェイスマスクで分離し、マルチキャラクタシナリオのクロスアテンションによる独立したオーディオ注入を可能にする。これらの革新的な技術により、HunyuanVideo-Avatarはベンチマークデータセットと新たに提案された野生データセットにおいて最先端の手法を凌駕し、ダイナミックで没入感のあるシナリオにおいてリアルなアバターを生成する。
要約(オリジナル)
Recent years have witnessed significant progress in audio-driven human animation. However, critical challenges remain in (i) generating highly dynamic videos while preserving character consistency, (ii) achieving precise emotion alignment between characters and audio, and (iii) enabling multi-character audio-driven animation. To address these challenges, we propose HunyuanVideo-Avatar, a multimodal diffusion transformer (MM-DiT)-based model capable of simultaneously generating dynamic, emotion-controllable, and multi-character dialogue videos. Concretely, HunyuanVideo-Avatar introduces three key innovations: (i) A character image injection module is designed to replace the conventional addition-based character conditioning scheme, eliminating the inherent condition mismatch between training and inference. This ensures the dynamic motion and strong character consistency; (ii) An Audio Emotion Module (AEM) is introduced to extract and transfer the emotional cues from an emotion reference image to the target generated video, enabling fine-grained and accurate emotion style control; (iii) A Face-Aware Audio Adapter (FAA) is proposed to isolate the audio-driven character with latent-level face mask, enabling independent audio injection via cross-attention for multi-character scenarios. These innovations empower HunyuanVideo-Avatar to surpass state-of-the-art methods on benchmark datasets and a newly proposed wild dataset, generating realistic avatars in dynamic, immersive scenarios.
arxiv情報
著者 | Yi Chen,Sen Liang,Zixiang Zhou,Ziyao Huang,Yifeng Ma,Junshu Tang,Qin Lin,Yuan Zhou,Qinglin Lu |
発行日 | 2025-06-03 15:15:31+00:00 |
arxivサイト | arxiv_id(pdf) |