要約
空間的および時間的ダイナミクスとハードウェアの制限の複雑な相互作用により、長く高品質のビデオを生成することは依然として課題です。
この作業では、個別の表現とフローマッチングを組み合わせて、高品質の長いビデオの効率的な生成を可能にする統一されたビデオ生成フレームワークであるMaskFlowを紹介します。
トレーニング中にフレームレベルのマスキング戦略を活用することにより、以前に生成されたアンマスクフレームのMaskFlow条件をレバレッジして、トレーニングシーケンスの10倍を超える長さのビデオを生成します。
MaskFlowは、高速マスク生成モデル(MGM)スタイルサンプリングを使用できるようにすることで非常に効率的に行い、完全に自己回復的な生成モードの両方で展開できます。
FaceForensics(FFS)およびDeepMind Lab(DMLAB)データセットでのメソッドの品質を検証し、最先端のアプローチと競争力のあるFrechet Video Distance(FVD)をレポートします。
また、メソッドのサンプリング効率に関する詳細な分析を提供し、MaskFlowをTimestep依存モデルとTimestep独立モデルの両方にトレーニングなしの方法で適用できることを実証します。
要約(オリジナル)
Generating long, high-quality videos remains a challenge due to the complex interplay of spatial and temporal dynamics and hardware limitations. In this work, we introduce MaskFlow, a unified video generation framework that combines discrete representations with flow-matching to enable efficient generation of high-quality long videos. By leveraging a frame-level masking strategy during training, MaskFlow conditions on previously generated unmasked frames to generate videos with lengths ten times beyond that of the training sequences. MaskFlow does so very efficiently by enabling the use of fast Masked Generative Model (MGM)-style sampling and can be deployed in both fully autoregressive as well as full-sequence generation modes. We validate the quality of our method on the FaceForensics (FFS) and Deepmind Lab (DMLab) datasets and report Frechet Video Distance (FVD) competitive with state-of-the-art approaches. We also provide a detailed analysis on the sampling efficiency of our method and demonstrate that MaskFlow can be applied to both timestep-dependent and timestep-independent models in a training-free manner.
arxiv情報
著者 | Michael Fuest,Vincent Tao Hu,Björn Ommer |
発行日 | 2025-03-12 16:27:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google