M4V: Multi-Modal Mamba for Text-to-Video Generation

要約

テキストからビデオへの生成は、コンテンツの作成を大幅に濃縮しており、強力な世界シミュレーターに進化する可能性を秘めています。
ただし、特に変圧器を使用する場合、広大な時空スペースをモデリングすると、順番に順番に複雑さを伴う場合があり、実用的なアプリケーションを制限する場合は、計算上厳しいままです。
線形時間シーケンスモデリング、特にMambaアーキテクチャの最近の進歩は、より効率的な代替品を提供します。
それにもかかわらず、そのプレーンデザインは、マルチモーダルおよび空間的なビデオ生成タスクへの直接的な適用性を制限します。
これらの課題に対処するために、テキストからビデオへの生成のためのマルチモーダルMAMBAフレームワークであるM4Vを紹介します。
具体的には、マルチモーダル情報のシームレスな統合とマルチモーダルトークンの再配置設計を介した空間的モデリングを可能にするマルチモーダル拡散MAMBA(MM-DIM)ブロックを提案します。
その結果、M4VのMAMBAブロックは、768 $ \ Times 1280ドルの解像度でビデオを生成する際の注意ベースの代替品と比較して、フロップを45%減少させます。
さらに、長いコンテキストの自己回帰生成プロセスにおける視覚的な品質の低下を緩和するために、視覚ごとのリアリズムをさらに強化する報酬学習戦略を導入します。
テキストからビデオへのベンチマークに関する広範な実験は、M4Vが高品質のビデオを作成しながら計算コストを大幅に削減する能力を示しています。
コードとモデルは、https://huangjch526.github.io/m4v_projectで公開されます。

要約(オリジナル)

Text-to-video generation has significantly enriched content creation and holds the potential to evolve into powerful world simulators. However, modeling the vast spatiotemporal space remains computationally demanding, particularly when employing Transformers, which incur quadratic complexity in sequence processing and thus limit practical applications. Recent advancements in linear-time sequence modeling, particularly the Mamba architecture, offer a more efficient alternative. Nevertheless, its plain design limits its direct applicability to multi-modal and spatiotemporal video generation tasks. To address these challenges, we introduce M4V, a Multi-Modal Mamba framework for text-to-video generation. Specifically, we propose a multi-modal diffusion Mamba (MM-DiM) block that enables seamless integration of multi-modal information and spatiotemporal modeling through a multi-modal token re-composition design. As a result, the Mamba blocks in M4V reduce FLOPs by 45% compared to the attention-based alternative when generating videos at 768$\times$1280 resolution. Additionally, to mitigate the visual quality degradation in long-context autoregressive generation processes, we introduce a reward learning strategy that further enhances per-frame visual realism. Extensive experiments on text-to-video benchmarks demonstrate M4V’s ability to produce high-quality videos while significantly lowering computational costs. Code and models will be publicly available at https://huangjch526.github.io/M4V_project.

arxiv情報

著者 Jiancheng Huang,Gengwei Zhang,Zequn Jie,Siyu Jiao,Yinlong Qian,Ling Chen,Yunchao Wei,Lin Ma
発行日 2025-06-12 17:29:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク