Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss

要約

この論文では、モーション ガイダンスを備えた時間的に一貫したビデオを生成するという課題に取り組みます。
既存の手法の多くは追加の制御モジュールや推論時の微調整に依存していますが、最近の研究では、モデル アーキテクチャを変更したり追加のトレーニングを必要とせずに、効果的なモーション ガイダンスを達成できることが示唆されています。
このようなアプローチでは、さまざまなビデオ生成基盤モデルとの互換性が期待できます。
しかし、既存のトレーニング不要の方法では、フレーム間で一貫した時間的コヒーレンスを維持したり、ガイドされた動きを正確に追従したりするのが難しいことがよくあります。
この研究では、初期ノイズベースのアプローチと新しいモーション一貫性の損失を組み合わせた、シンプルかつ効果的なソリューションを提案します。後者は私たちの重要な革新です。
具体的には、ビデオ拡散モデルから中間特徴のフレーム間特徴相関パターンを取得して、参照ビデオの動きパターンを表します。
次に、生成されたビデオで同様の特徴相関パターンを維持するモーション一貫性損失を設計し、潜在空間でのこの損失の勾配を使用して、正確なモーション制御のための生成プロセスをガイドします。
このアプローチにより、トレーニング不要のセットアップの利点を維持しながら、さまざまなモーション コントロール タスクにわたる時間的一貫性が向上します。
広範な実験により、私たちの方法が効率的で時間的に一貫したビデオ生成の新しい標準を設定することが示されました。

要約(オリジナル)

In this paper, we address the challenge of generating temporally consistent videos with motion guidance. While many existing methods depend on additional control modules or inference-time fine-tuning, recent studies suggest that effective motion guidance is achievable without altering the model architecture or requiring extra training. Such approaches offer promising compatibility with various video generation foundation models. However, existing training-free methods often struggle to maintain consistent temporal coherence across frames or to follow guided motion accurately. In this work, we propose a simple yet effective solution that combines an initial-noise-based approach with a novel motion consistency loss, the latter being our key innovation. Specifically, we capture the inter-frame feature correlation patterns of intermediate features from a video diffusion model to represent the motion pattern of the reference video. We then design a motion consistency loss to maintain similar feature correlation patterns in the generated video, using the gradient of this loss in the latent space to guide the generation process for precise motion control. This approach improves temporal consistency across various motion control tasks while preserving the benefits of a training-free setup. Extensive experiments show that our method sets a new standard for efficient, temporally coherent video generation.

arxiv情報

著者 Xinyu Zhang,Zicheng Duan,Dong Gong,Lingqiao Liu
発行日 2025-01-13 18:53:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク