要約
この論文では、潜在空間で適応的な時間的圧縮を利用できるトレーニングなしのパラダイムである動的潜在フレームレートVAE(DLFR-vae)を提案します。
既存のビデオ生成モデルは、前処理されたVAEを介して固定圧縮速度を適用しますが、実際のビデオコンテンツは、静的なシーンよりも多くの情報を含むハイモーションセグメントを含むかなりの時間的非均一性を示すことを観察します。
この洞察に基づいて、DLFR-Vaeはコンテンツの複雑さに応じて潜在フレームレートを動的に調整します。
具体的には、DLFR-Vaeは2つのコアイノベーションで構成されています。(1)動画を一時的なチャンクに分割し、情報理論的コンテンツの複雑さに基づいて最適なフレームレートを適応的に決定する動的潜在フレームレートスケジューラ、および(2)トレーニングなしの適応メカニズム
前処理されたVAEアーキテクチャを、さまざまなフレームレートで機能を処理できる動的なVAEに変換します。
当社のシンプルだが効果的なDLFR-Vaeは、既存のビデオ生成モデルとシームレスに統合され、ビデオ生成プロセスを加速するプラグアンドプレイモジュールとして機能できます。
要約(オリジナル)
In this paper, we propose the Dynamic Latent Frame Rate VAE (DLFR-VAE), a training-free paradigm that can make use of adaptive temporal compression in latent space. While existing video generative models apply fixed compression rates via pretrained VAE, we observe that real-world video content exhibits substantial temporal non-uniformity, with high-motion segments containing more information than static scenes. Based on this insight, DLFR-VAE dynamically adjusts the latent frame rate according to the content complexity. Specifically, DLFR-VAE comprises two core innovations: (1) A Dynamic Latent Frame Rate Scheduler that partitions videos into temporal chunks and adaptively determines optimal frame rates based on information-theoretic content complexity, and (2) A training-free adaptation mechanism that transforms pretrained VAE architectures into a dynamic VAE that can process features with variable frame rates. Our simple but effective DLFR-VAE can function as a plug-and-play module, seamlessly integrating with existing video generation models and accelerating the video generation process.
arxiv情報
著者 | Zhihang Yuan,Siyuan Wang,Rui Xie,Hanling Zhang,Tongcheng Fang,Yuzhang Shang,Shengen Yan,Guohao Dai,Yu Wang |
発行日 | 2025-02-17 15:22:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google