TPDiff: Temporal Pyramid Video Diffusion Model

要約

ビデオ拡散モデルの開発により、重要な課題が明らかになります。これは、実質的な計算需要です。
この課題を緩和するために、拡散の逆のプロセスは固有のエントロピー還元性を示すことに注意してください。
ビデオモダリティにおけるフレーム間冗長性を考えると、高エントロピー段階でフルフレームレートを維持することは不要です。
この洞察に基づいて、トレーニングと推論効率を高めるための統一されたフレームワークであるTPDIFFを提案します。
拡散をいくつかの段階に分割することにより、私たちのフレームワークは、拡散プロセスに沿ってフレームレートを徐々に増加させ、最後のステージのみがフルフレームレートで動作し、それにより計算効率を最適化します。
マルチステージ拡散モデルをトレーニングするために、専用のトレーニングフレームワークであるステージごとの拡散を紹介します。
整列データとノイズの下で、分割された確率フロー拡散の通常の微分方程式(ODE)を解くことにより、トレーニング戦略はさまざまな拡散型に適用でき、トレーニング効率をさらに高めます。
包括的な実験的評価は、当社の方法の一般性を検証し、トレーニングコストの50%の削減と推論効率の1.5倍の改善を示しています。

要約(オリジナル)

The development of video diffusion models unveils a significant challenge: the substantial computational demands. To mitigate this challenge, we note that the reverse process of diffusion exhibits an inherent entropy-reducing nature. Given the inter-frame redundancy in video modality, maintaining full frame rates in high-entropy stages is unnecessary. Based on this insight, we propose TPDiff, a unified framework to enhance training and inference efficiency. By dividing diffusion into several stages, our framework progressively increases frame rate along the diffusion process with only the last stage operating on full frame rate, thereby optimizing computational efficiency. To train the multi-stage diffusion model, we introduce a dedicated training framework: stage-wise diffusion. By solving the partitioned probability flow ordinary differential equations (ODE) of diffusion under aligned data and noise, our training strategy is applicable to various diffusion forms and further enhances training efficiency. Comprehensive experimental evaluations validate the generality of our method, demonstrating 50% reduction in training cost and 1.5x improvement in inference efficiency.

arxiv情報

著者 Lingmin Ran,Mike Zheng Shou
発行日 2025-03-12 17:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク