要約
ビデオ生成のタスクには、視覚的に現実的で一時的にコヒーレントなビデオフレームを合成する必要があります。
既存の方法は、主に非同期自己回帰モデルまたは同期拡散モデルを使用して、この課題に対処します。
ただし、非同期の自己回帰モデルは、トレーニングと推論の間の矛盾に苦しむことが多く、エラーの蓄積などの問題につながりますが、同期拡散モデルは剛性シーケンスの長さに依存することによって制限されます。
これらの問題に対処するために、柔軟な非同期ビデオ生成のための自己回帰および拡散モデルの強度を組み合わせた新しいモデルである自動回帰拡散(AR拡散)を導入します。
具体的には、私たちのアプローチは、トレーニングと推論の両方で徐々に破損したビデオフレームに拡散を活用し、これらのフェーズ間の矛盾を減らします。
自動回帰の世代に触発されて、私たちは個々のフレームの破損のタイムステップに非断固たる制約を組み込み、以前のフレームが後続のフレームよりも明確なままであることを保証します。
このセットアップは、一時的な因果関係とともに、時間の一貫性を維持しながら、さまざまな長さのビデオの柔軟な生成を可能にします。
さらに、トレーニング中のバランスの取れたタイムステップサンプリング用のFOPPスケジューラと、推論中の柔軟なタイムステップの違いのための広告スケジューラの2つの特殊なタイムステップスケジューラを設計し、同期と非同期の生成の両方をサポートします。
広範な実験は、提案された方法の優位性を示しています。これは、4つの挑戦的なベンチマークで競争力のある最先端の結果を達成します。
要約(オリジナル)
The task of video generation requires synthesizing visually realistic and temporally coherent video frames. Existing methods primarily use asynchronous auto-regressive models or synchronous diffusion models to address this challenge. However, asynchronous auto-regressive models often suffer from inconsistencies between training and inference, leading to issues such as error accumulation, while synchronous diffusion models are limited by their reliance on rigid sequence length. To address these issues, we introduce Auto-Regressive Diffusion (AR-Diffusion), a novel model that combines the strengths of auto-regressive and diffusion models for flexible, asynchronous video generation. Specifically, our approach leverages diffusion to gradually corrupt video frames in both training and inference, reducing the discrepancy between these phases. Inspired by auto-regressive generation, we incorporate a non-decreasing constraint on the corruption timesteps of individual frames, ensuring that earlier frames remain clearer than subsequent ones. This setup, together with temporal causal attention, enables flexible generation of videos with varying lengths while preserving temporal coherence. In addition, we design two specialized timestep schedulers: the FoPP scheduler for balanced timestep sampling during training, and the AD scheduler for flexible timestep differences during inference, supporting both synchronous and asynchronous generation. Extensive experiments demonstrate the superiority of our proposed method, which achieves competitive and state-of-the-art results across four challenging benchmarks.
arxiv情報
著者 | Mingzhen Sun,Weining Wang,Gen Li,Jiawei Liu,Jiahui Sun,Wanquan Feng,Shanshan Lao,SiYu Zhou,Qian He,Jing Liu |
発行日 | 2025-03-10 15:05:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google