要約
トーキングヘッドベースのアバター作成ソリューションの注目すべきプロセスにもかかわらず、全身モーションを含むアンカー スタイルのビデオを直接生成することは依然として困難です。
この研究では、トレーニングのために個人の 1 分間のビデオ クリップを必要とするだけで、その後、正確な胴体と手の動きを含むアンカー スタイルのビデオを自動生成できる新しいシステムである Make-Your-Anchor を提案します。
具体的には、入力ビデオ上で提案された構造誘導拡散モデルを微調整して、3D メッシュ状態を人間の外観にレンダリングします。
私たちは拡散モデルに 2 段階のトレーニング戦略を採用し、動きを特定の外観に効果的に結び付けます。
任意の長い時間ビデオを生成するために、追加のトレーニング コストなしでフレーム単位の拡散モデルの 2D U-Net を 3D スタイルに拡張し、ビデオの長さに関する制約をバイパスするためのシンプルかつ効果的なバッチオーバーラップ時間ノイズ除去モジュールを提案します。
推理中。
最後に、新しいアイデンティティ固有の顔強化モジュールが導入され、出力ビデオの顔領域の視覚的品質が向上します。
比較実験により、視覚的品質、時間的一貫性、および同一性の保持の点で、SOTA 拡散/非拡散手法を上回るこのシステムの有効性と優位性が実証されました。
プロジェクト ページ: \url{https://github.com/ICTMCG/Make-Your-Anchor}。
要約(オリジナル)
Despite the remarkable process of talking-head-based avatar-creating solutions, directly generating anchor-style videos with full-body motions remains challenging. In this study, we propose Make-Your-Anchor, a novel system necessitating only a one-minute video clip of an individual for training, subsequently enabling the automatic generation of anchor-style videos with precise torso and hand movements. Specifically, we finetune a proposed structure-guided diffusion model on input video to render 3D mesh conditions into human appearances. We adopt a two-stage training strategy for the diffusion model, effectively binding movements with specific appearances. To produce arbitrary long temporal video, we extend the 2D U-Net in the frame-wise diffusion model to a 3D style without additional training cost, and a simple yet effective batch-overlapped temporal denoising module is proposed to bypass the constraints on video length during inference. Finally, a novel identity-specific face enhancement module is introduced to improve the visual quality of facial regions in the output videos. Comparative experiments demonstrate the effectiveness and superiority of the system in terms of visual quality, temporal coherence, and identity preservation, outperforming SOTA diffusion/non-diffusion methods. Project page: \url{https://github.com/ICTMCG/Make-Your-Anchor}.
arxiv情報
著者 | Ziyao Huang,Fan Tang,Yong Zhang,Xiaodong Cun,Juan Cao,Jintao Li,Tong-Yee Lee |
発行日 | 2024-03-25 07:54:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google