SimDA: Simple Diffusion Adapter for Efficient Video Generation

要約

最近の AI 生成コンテンツの波により、Text-to-Image (T2I) テクノロジーの大きな発展と成功が見られました。
対照的に、Text-to-Video (T2V) は、関心が高まっていますが、依然として期待を下回っています。
既存の作品は、最初からトレーニングするか、大規模な T2I モデルをビデオに適応させるかのいずれかですが、どちらも計算とリソースが高価です。
この研究では、強力な T2I モデルの 1.1B パラメータのうち 24M のみを微調整し、パラメータ効率の高い方法でビデオ生成に適応させる Simple Diffusion Adaptor (SimDA) を提案します。
特に、転移学習用の軽量の空間アダプターと時間アダプターを設計することで、T2I モデルを T2V 用に変換します。
さらに、時間的一貫性を保つために、元の空間的注意を提案された潜在シフト アテンション (LSA) に変更します。
同様のモデル アーキテクチャを使用して、ビデオ超解像度モデルをさらにトレーニングして、高解像度 (1024×1024) ビデオを生成します。
実際の T2V 生成に加えて、SimDA はわずか 2 分の調整でワンショットのビデオ編集にも利用できます。
そうすることで、私たちの方法では、モデル適応のための調整可能なパラメーターを極めて少なくして、トレーニングの労力を最小限に抑えることができます。

要約(オリジナル)

The recent wave of AI-generated content has witnessed the great development and success of Text-to-Image (T2I) technologies. By contrast, Text-to-Video (T2V) still falls short of expectations though attracting increasing interests. Existing works either train from scratch or adapt large T2I model to videos, both of which are computation and resource expensive. In this work, we propose a Simple Diffusion Adapter (SimDA) that fine-tunes only 24M out of 1.1B parameters of a strong T2I model, adapting it to video generation in a parameter-efficient way. In particular, we turn the T2I model for T2V by designing light-weight spatial and temporal adapters for transfer learning. Besides, we change the original spatial attention to the proposed Latent-Shift Attention (LSA) for temporal consistency. With similar model architecture, we further train a video super-resolution model to generate high-definition (1024×1024) videos. In addition to T2V generation in the wild, SimDA could also be utilized in one-shot video editing with only 2 minutes tuning. Doing so, our method could minimize the training effort with extremely few tunable parameters for model adaptation.

arxiv情報

著者 Zhen Xing,Qi Dai,Han Hu,Zuxuan Wu,Yu-Gang Jiang
発行日 2023-08-18 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク