要約
人物画像アニメーションの現在の普及モデルは、アイデンティティ (ID) の一貫性を確保するのに苦労しています。
この論文では、参照画像とポーズのシーケンスを条件として後処理なしで高品質のビデオを合成する、初のエンドツーエンドの ID 保存ビデオ拡散フレームワークである StableAnimator について説明します。
ビデオ拡散モデルに基づいて構築された StableAnimator には、アイデンティティの一貫性を目指してトレーニングと推論の両方のために慎重に設計されたモジュールが含まれています。
特に、StableAnimator は、既製のエクストラクターを使用して画像と顔の埋め込みをそれぞれ計算することから始まり、顔の埋め込みは、グローバルなコンテンツ対応の Face Encoder を使用して画像の埋め込みと対話することによってさらに洗練されます。
次に、StableAnimator は、位置合わせによって ID を維持しながら、時間レイヤーによって引き起こされる干渉を防ぐ、新しいディストリビューション対応 ID アダプターを導入します。
推論中に、顔の品質をさらに向上させるために、新しいハミルトン・ヤコビ・ベルマン (HJB) 方程式に基づく最適化を提案します。
我々は、HJB 方程式を解くことを拡散ノイズ除去プロセスに統合することができ、結果として得られる解がノイズ除去パスを制約するため、ID の保存に利益をもたらすことを実証します。
複数のベンチマークでの実験により、StableAnimator の有効性が定性的および定量的に示されています。
要約(オリジナル)
Current diffusion models for human image animation struggle to ensure identity (ID) consistency. This paper presents StableAnimator, the first end-to-end ID-preserving video diffusion framework, which synthesizes high-quality videos without any post-processing, conditioned on a reference image and a sequence of poses. Building upon a video diffusion model, StableAnimator contains carefully designed modules for both training and inference striving for identity consistency. In particular, StableAnimator begins by computing image and face embeddings with off-the-shelf extractors, respectively and face embeddings are further refined by interacting with image embeddings using a global content-aware Face Encoder. Then, StableAnimator introduces a novel distribution-aware ID Adapter that prevents interference caused by temporal layers while preserving ID via alignment. During inference, we propose a novel Hamilton-Jacobi-Bellman (HJB) equation-based optimization to further enhance the face quality. We demonstrate that solving the HJB equation can be integrated into the diffusion denoising process, and the resulting solution constrains the denoising path and thus benefits ID preservation. Experiments on multiple benchmarks show the effectiveness of StableAnimator both qualitatively and quantitatively.
arxiv情報
著者 | Shuyuan Tu,Zhen Xing,Xintong Han,Zhi-Qi Cheng,Qi Dai,Chong Luo,Zuxuan Wu |
発行日 | 2024-11-26 18:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google