Mobile Video Diffusion

要約

ビデオ拡散モデルは、印象的なリアリズムと制御性を実現していますが、高い計算要求によって制限されており、モバイル デバイスでの使用が制限されています。
このペーパーでは、最初のモバイルに最適化されたビデオ普及モデルを紹介します。
Stable Video Diffusion (SVD) の時空間 UNet から始めて、フレーム解像度を下げ、マルチスケール時間表現を組み込み、チャネルと時間ブロックの数を減らす 2 つの新しい枝刈りスキーマを導入することで、メモリと計算コストを削減します。
さらに、敵対的微調整を採用してノイズ除去を 1 ステップに削減します。
MobileVD として造語された私たちのモデルは、品質がわずかに低下しますが (1817.2 対 4.34 TFLOP)、効率が 523 倍向上し (FVD 149 対 171)、Xiaomi-14 Pro で 1.7 秒で 14x512x256 ピクセルのクリップのレイテントを生成します。
私たちの結果は https://qualcomm-ai-research.github.io/mobile-video-diffusion/ で入手できます。

要約(オリジナル)

Video diffusion models have achieved impressive realism and controllability but are limited by high computational demands, restricting their use on mobile devices. This paper introduces the first mobile-optimized video diffusion model. Starting from a spatio-temporal UNet from Stable Video Diffusion (SVD), we reduce memory and computational cost by reducing the frame resolution, incorporating multi-scale temporal representations, and introducing two novel pruning schema to reduce the number of channels and temporal blocks. Furthermore, we employ adversarial finetuning to reduce the denoising to a single step. Our model, coined as MobileVD, is 523x more efficient (1817.2 vs. 4.34 TFLOPs) with a slight quality drop (FVD 149 vs. 171), generating latents for a 14x512x256 px clip in 1.7 seconds on a Xiaomi-14 Pro. Our results are available at https://qualcomm-ai-research.github.io/mobile-video-diffusion/

arxiv情報

著者 Haitam Ben Yahia,Denis Korzhenkov,Ioannis Lelekas,Amir Ghodrati,Amirhossein Habibian
発行日 2024-12-10 15:19:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク