要約
時間的に一貫性のある忠実度の高い映像を生成することは、特に長い時間スパンでは計算コストがかかる。最近の拡散変換器(DiTs)は、この文脈で大きく前進しているにもかかわらず、より大きなモデルとより重い注意メカニズムに依存しているため、推論速度が遅くなり、このような課題を高めている。本論文では、アダプティブ・キャッシング(AdaCache)と呼ばれる、ビデオDiTsを高速化するトレーニング不要の手法を紹介する。これは、「すべてのビデオが同じように作成されるわけではない」という事実に動機づけられている。つまり、ある動画は他の動画よりも少ないノイズ除去ステップで妥当な品質を達成することができるのです。これに基づき、我々は拡散プロセスを通じて計算をキャッシュするだけでなく、各動画世代に合わせたキャッシュスケジュールを考案し、品質と遅延のトレードオフを最大化します。さらに、AdaCache内でビデオ情報を利用するために、モーション・レギュラライゼーション(MoReg)スキームを導入し、基本的にモーション・コンテンツに基づいて計算の割り当てを制御する。全体として、我々のプラグアンドプレイによる貢献は、複数のビデオDiTベースラインにおいて、生成品質を犠牲にすることなく、大幅な推論の高速化(例えば、Open-Sora 720p – 2sビデオ生成において最大4.7倍)を実現する。
要約(オリジナル)
Generating temporally-consistent high-fidelity videos can be computationally expensive, especially over longer temporal spans. More-recent Diffusion Transformers (DiTs) — despite making significant headway in this context — have only heightened such challenges as they rely on larger models and heavier attention mechanisms, resulting in slower inference speeds. In this paper, we introduce a training-free method to accelerate video DiTs, termed Adaptive Caching (AdaCache), which is motivated by the fact that ‘not all videos are created equal’: meaning, some videos require fewer denoising steps to attain a reasonable quality than others. Building on this, we not only cache computations through the diffusion process, but also devise a caching schedule tailored to each video generation, maximizing the quality-latency trade-off. We further introduce a Motion Regularization (MoReg) scheme to utilize video information within AdaCache, essentially controlling the compute allocation based on motion content. Altogether, our plug-and-play contributions grant significant inference speedups (e.g. up to 4.7x on Open-Sora 720p – 2s video generation) without sacrificing the generation quality, across multiple video DiT baselines.
arxiv情報
著者 | Kumara Kahatapitiya,Haozhe Liu,Sen He,Ding Liu,Menglin Jia,Michael S. Ryoo,Tian Xie |
発行日 | 2024-11-04 18:59:44+00:00 |
arxivサイト | arxiv_id(pdf) |