要約
オーディオ駆動型のビデオ生成の最近の進歩にもかかわらず、既存の方法は主に顔の動きを駆動することに焦点を当てており、非共同頭部と身体のダイナミクスにつながります。
今後は、正確なリップシンクとデリケートな共同スピーチジェスチャーW.R.Tの両方で、全体的な人間のビデオを生成することが望ましいが、挑戦的です。
指定されたオーディオ。
この作業では、参照画像と特定のオーディオに基づいて全体的な人間のビデオを合成するカスケード拡散変換(DITS)パラダイムを採用する一般化されたオーディオ駆動型の人間ビデオ生成フレームワークであるAudcastを提案します。
1)まず、鮮明なジェスチャーのダイナミクスであらゆる人体の動きを直接駆動するために、オーディオコンディショニングされた全体的な人間のDITアーキテクチャが提案されています。
2)その後、扱いにくい手と対面の詳細を強化するために、地域の洗練により、地域の3Dフィッティングが信号を改革するためのブリッジとして、最終結果を生み出します。
広範な実験は、私たちのフレームワークが、一時的な一貫性と細かいフェイシャルと手の詳細を備えた高忠実度のオーディオ駆動型のホリスティックなビデオを生成することを示しています。
リソースはhttps://guanjz20.github.io/projects/audcastにあります。
要約(オリジナル)
Despite the recent progress of audio-driven video generation, existing methods mostly focus on driving facial movements, leading to non-coherent head and body dynamics. Moving forward, it is desirable yet challenging to generate holistic human videos with both accurate lip-sync and delicate co-speech gestures w.r.t. given audio. In this work, we propose AudCast, a generalized audio-driven human video generation framework adopting a cascade Diffusion-Transformers (DiTs) paradigm, which synthesizes holistic human videos based on a reference image and a given audio. 1) Firstly, an audio-conditioned Holistic Human DiT architecture is proposed to directly drive the movements of any human body with vivid gesture dynamics. 2) Then to enhance hand and face details that are well-knownly difficult to handle, a Regional Refinement DiT leverages regional 3D fitting as the bridge to reform the signals, producing the final results. Extensive experiments demonstrate that our framework generates high-fidelity audio-driven holistic human videos with temporal coherence and fine facial and hand details. Resources can be found at https://guanjz20.github.io/projects/AudCast.
arxiv情報
著者 | Jiazhi Guan,Kaisiyuan Wang,Zhiliang Xu,Quanwei Yang,Yasheng Sun,Shengyi He,Borong Liang,Yukang Cao,Yingying Li,Haocheng Feng,Errui Ding,Jingdong Wang,Youjian Zhao,Hang Zhou,Ziwei Liu |
発行日 | 2025-03-25 16:38:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google