要約
拡散ベースのビデオ生成技術の導入により、音声調整された人間のビデオ生成は最近、動きの自然さとポートレートの詳細の合成の両方において大きな進歩を遂げました。
人間の動きを動かす際の音声信号の制御には限界があるため、既存の方法では動きを安定させるために補助的な空間信号を追加することが多く、動きの自然さと自由さが損なわれる可能性があります。
この論文では、Loopy という名前のエンドツーエンドのオーディオのみの条件付きビデオ拡散モデルを提案します。
具体的には、クリップ間およびクリップ内の時間モジュールとオーディオから潜在モジュールまでを設計し、モデルがデータからの長期の動き情報を活用して自然な動きのパターンを学習し、オーディオとポートレートの動きの相関関係を改善できるようにしました。
この方法では、推論中に動きを制約するために既存の方法で使用されていた空間動きテンプレートを手動で指定する必要がなくなりました。
広範な実験により、Loopy は最近のオーディオ主導のポートレート拡散モデルよりも優れたパフォーマンスを発揮し、さまざまなシナリオにわたってよりリアルで高品質な結果を提供できることが示されています。
要約(オリジナル)
With the introduction of diffusion-based video generation techniques, audio-conditioned human video generation has recently achieved significant breakthroughs in both the naturalness of motion and the synthesis of portrait details. Due to the limited control of audio signals in driving human motion, existing methods often add auxiliary spatial signals to stabilize movements, which may compromise the naturalness and freedom of motion. In this paper, we propose an end-to-end audio-only conditioned video diffusion model named Loopy. Specifically, we designed an inter- and intra-clip temporal module and an audio-to-latents module, enabling the model to leverage long-term motion information from the data to learn natural motion patterns and improving audio-portrait movement correlation. This method removes the need for manually specified spatial motion templates used in existing methods to constrain motion during inference. Extensive experiments show that Loopy outperforms recent audio-driven portrait diffusion models, delivering more lifelike and high-quality results across various scenarios.
arxiv情報
著者 | Jianwen Jiang,Chao Liang,Jiaqi Yang,Gaojie Lin,Tianyun Zhong,Yanbo Zheng |
発行日 | 2024-09-05 09:11:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google