Next Block Prediction: Video Generation via Semi-Autoregressive Modeling

要約

Next-Token Prediction(NTP)は、自己回帰(AR)ビデオ生成のための事実上のアプローチですが、最適ではない一方向の依存関係と推論速度が遅いことに苦しんでいます。
この作業では、ビデオ生成のために、次のブロック予測(NBP)と呼ばれる半自動性(SEMI-AR)フレームワークを提案します。
ビデオコンテンツを等しいサイズのブロック(行やフレームなど)に均一に分解することにより、生成ユニットを個々のトークンからブロックにシフトし、現在のブロック内の各トークンが次のブロックの対応するトークンを同時に予測できるようにします。
従来のARモデリングとは異なり、当社のフレームワークは各ブロック内で双方向の注意を採用しており、トークンがより堅牢な空間依存関係をキャプチャできるようにします。
複数のトークンを並行して予測することにより、NBPモデルは生成ステップの数を大幅に減らし、より速く、より効率的な推論につながります。
私たちのモデルは、UCF101で103.3、K600で25.5のFVDスコアを達成し、平均4.4でバニラNTPモデルを上回ります。
さらに、推論手順の数が減ったため、NBPモデルは1秒あたり8.89フレーム(128×128解像度)を生成し、11倍のスピードアップを達成します。
また、700mから3Bのパラメーターの範囲のモデルスケールを調査し、生成品質の大幅な改善を観察し、FVDスコアはUCF101で103.3から55.3、K600で25.5から19.5に低下し、アプローチのスケーラビリティを示しました。

要約(オリジナル)

Next-Token Prediction (NTP) is a de facto approach for autoregressive (AR) video generation, but it suffers from suboptimal unidirectional dependencies and slow inference speed. In this work, we propose a semi-autoregressive (semi-AR) framework, called Next-Block Prediction (NBP), for video generation. By uniformly decomposing video content into equal-sized blocks (e.g., rows or frames), we shift the generation unit from individual tokens to blocks, allowing each token in the current block to simultaneously predict the corresponding token in the next block. Unlike traditional AR modeling, our framework employs bidirectional attention within each block, enabling tokens to capture more robust spatial dependencies. By predicting multiple tokens in parallel, NBP models significantly reduce the number of generation steps, leading to faster and more efficient inference. Our model achieves FVD scores of 103.3 on UCF101 and 25.5 on K600, outperforming the vanilla NTP model by an average of 4.4. Furthermore, thanks to the reduced number of inference steps, the NBP model generates 8.89 frames (128×128 resolution) per second, achieving an 11x speedup. We also explored model scales ranging from 700M to 3B parameters, observing significant improvements in generation quality, with FVD scores dropping from 103.3 to 55.3 on UCF101 and from 25.5 to 19.5 on K600, demonstrating the scalability of our approach.

arxiv情報

著者 Shuhuai Ren,Shuming Ma,Xu Sun,Furu Wei
発行日 2025-02-12 14:50:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク