要約
事前トレーニングされたテキストからビデオへのモデルに基づいて構築された先入れ先出し (FIFO) ビデオ拡散は、チューニング不要の長いビデオ生成のための効果的なアプローチとして最近登場しました。
この技術は、ノイズが徐々に増加するビデオ フレームのキューを維持し、キューの先頭でクリーンなフレームを継続的に生成し、ガウス ノイズが最後尾にエンキューされます。
ただし、FIFO 拡散では、フレーム間の対応モデリングが欠如しているため、生成されたビデオの長期にわたる時間的一貫性を維持するのが困難になることがよくあります。
この論文では、構造とコンテンツ (主題) の一貫性を強化し、任意の長さの一貫したビデオの生成を可能にする新しいビデオノイズ除去フレームワークである Ouroboros-Diffusion を提案します。
具体的には、キューの末尾に新しい潜在サンプリング手法を導入して構造の一貫性を向上させ、フレーム間の知覚的にスムーズな移行を保証します。
被写体の一貫性を高めるために、短いセグメント内のフレーム全体で被写体を位置合わせして視覚的な一貫性を向上させる、Subject-Aware Cross-Frame Attendee (SACFA) メカニズムを考案しました。
さらに、自己反復指導を導入します。
この技術は、キューの先頭にある以前のすべてのクリーンなフレームからの情報を活用して、最後にあるノイズの多いフレームのノイズ除去をガイドし、リッチでコンテキストに応じたグローバル情報の対話を促進します。
VBench ベンチマークでの長いビデオ生成の広範な実験により、特に被写体の一貫性、動きの滑らかさ、時間的な一貫性の点で、Ouroboros-Diffusion の優位性が実証されました。
要約(オリジナル)
The first-in-first-out (FIFO) video diffusion, built on a pre-trained text-to-video model, has recently emerged as an effective approach for tuning-free long video generation. This technique maintains a queue of video frames with progressively increasing noise, continuously producing clean frames at the queue’s head while Gaussian noise is enqueued at the tail. However, FIFO-Diffusion often struggles to keep long-range temporal consistency in the generated videos due to the lack of correspondence modeling across frames. In this paper, we propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structural and content (subject) consistency, enabling the generation of consistent videos of arbitrary length. Specifically, we introduce a new latent sampling technique at the queue tail to improve structural consistency, ensuring perceptually smooth transitions among frames. To enhance subject consistency, we devise a Subject-Aware Cross-Frame Attention (SACFA) mechanism, which aligns subjects across frames within short segments to achieve better visual coherence. Furthermore, we introduce self-recurrent guidance. This technique leverages information from all previous cleaner frames at the front of the queue to guide the denoising of noisier frames at the end, fostering rich and contextual global information interaction. Extensive experiments of long video generation on the VBench benchmark demonstrate the superiority of our Ouroboros-Diffusion, particularly in terms of subject consistency, motion smoothness, and temporal consistency.
arxiv情報
著者 | Jingyuan Chen,Fuchen Long,Jie An,Zhaofan Qiu,Ting Yao,Jiebo Luo,Tao Mei |
発行日 | 2025-01-15 18:59:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google