要約
ロングコンテキストの自動網性モデリングは、言語生成を大幅に高度にしていますが、ビデオ生成は、拡張された時間的コンテキストを完全に活用するのに依然として苦労しています。
ロングコンテキストビデオモデリングを調査するために、ビデオオートレーフシュレーションモデリングの強力なベースラインであるFrame AutoreGression(FAR)を紹介します。
言語モデルがトークン(つまり、トークンAR)間の因果関係を学習するように、ファーモデル連続フレーム間の時間的因果関係をモデル化し、トークンARやビデオ拡散トランスよりも優れた収束を達成します。
遠くに構築すると、視覚的な冗長性のために長いコンテキストビデオモデリングが課題に直面していることがわかります。
ビジョントークンが言語トークンよりもはるかに速く成長するため、長いビデオでのトレーニングは計算高価です。
この問題に取り組むために、長期的なコンテキストモデリングを通じて、地域性と長距離依存のバランスをとることを提案します。
高解像度の短期コンテキストウィンドウを使用すると、細かい時間の一貫性が保証されますが、無制限の長期コンテキストウィンドウは、より少ないトークンを使用した長距離情報をエンコードします。
このアプローチを使用すると、管理可能なトークンコンテキストの長さで長いビデオシーケンスでトレーニングすることができ、それによりトレーニング時間とメモリの使用量が大幅に削減できます。
さらに、長いビデオシーケンスの推論を加速する長い短期コンテキストモデリングをサポートするように設計されたマルチレベルKVキャッシュを提案します。
私たちは、遠方の両方で最新のパフォーマンスを達成し、ビデオの自己回復モデリングにシンプルで効果的なベースラインを提供することを実証します。
このコードはhttps://github.com/showlab/farでリリースされます。
要約(オリジナル)
Long-context autoregressive modeling has significantly advanced language generation, but video generation still struggles to fully utilize extended temporal contexts. To investigate long-context video modeling, we introduce Frame AutoRegressive (FAR), a strong baseline for video autoregressive modeling. Just as language models learn causal dependencies between tokens (i.e., Token AR), FAR models temporal causal dependencies between continuous frames, achieving better convergence than Token AR and video diffusion transformers. Building on FAR, we observe that long-context video modeling faces challenges due to visual redundancy. Training on long videos is computationally expensive, as vision tokens grow much faster than language tokens. To tackle this issue, we propose balancing locality and long-range dependency through long short-term context modeling. A high-resolution short-term context window ensures fine-grained temporal consistency, while an unlimited long-term context window encodes long-range information using fewer tokens. With this approach, we can train on long video sequences with a manageable token context length, thereby significantly reducing training time and memory usage. Furthermore, we propose a multi-level KV cache designed to support the long short-term context modeling, which accelerating inference on long video sequences. We demonstrate that FAR achieves state-of-the-art performance in both short- and long-video generation, providing a simple yet effective baseline for video autoregressive modeling. The code is released at https://github.com/showlab/FAR.
arxiv情報
著者 | Yuchao Gu,Weijia Mao,Mike Zheng Shou |
発行日 | 2025-04-17 15:26:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google