LoopAnimate: Loopable Salient Object Animation

要約

拡散モデルに基づくビデオ生成の研究は急速に進んでいます。
ただし、オブジェクトの忠実性と生成の長さの制限により、実際の応用が妨げられます。
さらに、アニメーション壁紙などの特定のドメインでは、ビデオの最初と最後のフレームがシームレスに一致するシームレスなループが必要です。
これらの課題に対処するために、この文書では、一貫した開始フレームと終了フレームを持つビデオを生成する新しい方法である LoopAnimate を提案します。
オブジェクトの忠実度を高めるために、マルチレベルの画像の外観とテキストの意味情報を分離するフレームワークを導入します。
画像間の拡散モデルに基づいて構築された私たちのアプローチは、入力画像からのピクセルレベルと特徴レベルの情報の両方を組み込み、拡散モデルのさまざまな位置に画像の外観とテキストの意味の埋め込みを挿入します。
既存の UNet ベースのビデオ生成モデルでは、時間情報と位置情報を一度にエンコードするために、トレーニング中にビデオ全体を入力する必要があります。
ただし、GPU メモリの制限により、フレーム数は通常 16 に制限されます。これに対処するために、この論文では、フレーム数を徐々に増やし、微調整モジュールを減らす 3 段階のトレーニング戦略を提案します。
さらに、Temporal Enhanced Motion Module (TEMM) を導入し、時間情報と位置情報をエンコードする能力を最大 36 フレームまで拡張します。
提案された LoopAnimate は、高品質のビデオ生成を維持しながら、UNet ベースのビデオ生成モデルのシングルパス生成長を初めて 35 フレームに拡張します。
実験では、LoopAnimate が忠実度や時間的一貫性などの客観的な指標と主観的な評価結果の両方において最先端のパフォーマンスを達成していることが実証されています。

要約(オリジナル)

Research on diffusion model-based video generation has advanced rapidly. However, limitations in object fidelity and generation length hinder its practical applications. Additionally, specific domains like animated wallpapers require seamless looping, where the first and last frames of the video match seamlessly. To address these challenges, this paper proposes LoopAnimate, a novel method for generating videos with consistent start and end frames. To enhance object fidelity, we introduce a framework that decouples multi-level image appearance and textual semantic information. Building upon an image-to-image diffusion model, our approach incorporates both pixel-level and feature-level information from the input image, injecting image appearance and textual semantic embeddings at different positions of the diffusion model. Existing UNet-based video generation models require to input the entire videos during training to encode temporal and positional information at once. However, due to limitations in GPU memory, the number of frames is typically restricted to 16. To address this, this paper proposes a three-stage training strategy with progressively increasing frame numbers and reducing fine-tuning modules. Additionally, we introduce the Temporal E nhanced Motion Module(TEMM) to extend the capacity for encoding temporal and positional information up to 36 frames. The proposed LoopAnimate, which for the first time extends the single-pass generation length of UNet-based video generation models to 35 frames while maintaining high-quality video generation. Experiments demonstrate that LoopAnimate achieves state-of-the-art performance in both objective metrics, such as fidelity and temporal consistency, and subjective evaluation results.

arxiv情報

著者 Fanyi Wang,Peng Liu,Haotian Hu,Dan Meng,Jingwen Su,Jinjin Xu,Yanhao Zhang,Xiaoming Ren,Zhiwang Zhang
発行日 2024-04-16 14:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク