SSM Meets Video Diffusion Models: Efficient Video Generation with Structured State Spaces

要約

拡散モデルによる画像生成における目覚ましい成果を受けて、研究コミュニティはこれらのモデルをビデオ生成に拡張することに関心を高めています。
ビデオ生成のための最近の拡散モデルは、主にアテンション レイヤーを利用して時間的特徴を抽出しています。
ただし、アテンション レイヤーは、シーケンスの長さに応じて二次関数的に増加するメモリ消費量によって制限されます。
この制限は、拡散モデルを使用して長いビデオ シーケンスを生成しようとする場合に重大な課題を引き起こします。
この課題を克服するために、状態空間モデル (SSM) を活用することを提案します。
SSM は、シーケンスの長さに比べてメモリ消費量が線形であるため、実行可能な代替手段として最近注目を集めています。
実験では、最初にビデオ生成の標準ベンチマークである UCF101 を使用して SSM ベースのモデルを評価します。
さらに、長時間のビデオ生成に対する SSM の可能性を調査するために、MineRL Navigate データセットを使用してフレーム数を 64 および 150 に変更して実験を実行しました。これらの設定では、SSM ベースのモデルは長時間のメモリ消費を大幅に節約できます。
アテンションベースのモデルと比較して競争力のある FVD スコアを維持しながら、シーケンスを強化します。
コードは https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models で入手できます。

要約(オリジナル)

Given the remarkable achievements in image generation through diffusion models, the research community has shown increasing interest in extending these models to video generation. Recent diffusion models for video generation have predominantly utilized attention layers to extract temporal features. However, attention layers are limited by their memory consumption, which increases quadratically with the length of the sequence. This limitation presents significant challenges when attempting to generate longer video sequences using diffusion models. To overcome this challenge, we propose leveraging state-space models (SSMs). SSMs have recently gained attention as viable alternatives due to their linear memory consumption relative to sequence length. In the experiments, we first evaluate our SSM-based model with UCF101, a standard benchmark of video generation. In addition, to investigate the potential of SSMs for longer video generation, we perform an experiment using the MineRL Navigate dataset, varying the number of frames to 64 and 150. In these settings, our SSM-based model can considerably save memory consumption for longer sequences, while maintaining competitive FVD scores to the attention-based models. Our codes are available at https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models.

arxiv情報

著者 Yuta Oshima,Shohei Taniguchi,Masahiro Suzuki,Yutaka Matsuo
発行日 2024-03-12 14:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク