SF-V: Single Forward Video Generation Model

要約

拡散ベースのビデオ生成モデルは、反復的なノイズ除去プロセスを通じて忠実度の高いビデオを取得することに顕著な成功を収めています。
ただし、これらのモデルではサンプリング中に複数のノイズ除去ステップが必要となるため、計算コストが高くなります。
この研究では、敵対的トレーニングを利用して事前トレーニングされたビデオ拡散モデルを微調整することにより、シングルステップのビデオ生成モデルを取得する新しいアプローチを提案します。
我々は、敵対的トレーニングを通じて、複数ステップのビデオ拡散モデル、つまり安定ビデオ拡散(SVD)をトレーニングして、単一の前方パスを実行して高品質ビデオを合成し、ビデオ内の時間的依存性と空間的依存性の両方をキャプチャできることを示します。
データ。
広範な実験により、私たちの方法が、ノイズ除去プロセスの計算オーバーヘッドを大幅に削減しながら、合成ビデオの競争力のある生成品質を達成できることが実証されました (つまり、SVD と比較して約 $23\times$ の高速化、既存の作品と比較して $6\times$ の高速化が実現され、さらに優れた生成品質が得られます)
)、リアルタイムのビデオ合成と編集への道を開きます。
さらに多くの視覚化結果は、https://snap-research.github.io/SF-V で公開されています。

要約(オリジナル)

Diffusion-based video generation models have demonstrated remarkable success in obtaining high-fidelity videos through the iterative denoising process. However, these models require multiple denoising steps during sampling, resulting in high computational costs. In this work, we propose a novel approach to obtain single-step video generation models by leveraging adversarial training to fine-tune pre-trained video diffusion models. We show that, through the adversarial training, the multi-steps video diffusion model, i.e., Stable Video Diffusion (SVD), can be trained to perform single forward pass to synthesize high-quality videos, capturing both temporal and spatial dependencies in the video data. Extensive experiments demonstrate that our method achieves competitive generation quality of synthesized videos with significantly reduced computational overhead for the denoising process (i.e., around $23\times$ speedup compared with SVD and $6\times$ speedup compared with existing works, with even better generation quality), paving the way for real-time video synthesis and editing. More visualization results are made publicly available at https://snap-research.github.io/SF-V.

arxiv情報

著者 Zhixing Zhang,Yanyu Li,Yushu Wu,Yanwu Xu,Anil Kag,Ivan Skorokhodov,Willi Menapace,Aliaksandr Siarohin,Junli Cao,Dimitris Metaxas,Sergey Tulyakov,Jian Ren
発行日 2024-06-06 17:58:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク