要約
ビデオ生成における最近の進歩は、スケーラブルな拡散トランスを備えた現実的で微妙なシングルショットビデオを生成する可能性があります。
ただし、実際の物語ビデオでは、ショット全体で視覚的および動的な一貫性を備えたマルチショットシーンが必要です。
この作業では、データから直接シーンレベルの一貫性を学習するために、事前に訓練されたシングルショットビデオ拡散モデルのコンテキストウィンドウを拡張するトレーニングパラダイムである長いコンテキストチューニング(LCT)を導入します。
私たちの方法は、個々のショットからの完全な注意メカニズムを拡大して、シーン内のすべてのショットを包含し、インターリーブ3D位置の埋め込みと非同期ノイズ戦略を組み込み、追加のパラメーターなしでジョイントとオート再生ショットの両方の生成を可能にします。
LCT後の双方向の注意を払ったモデルは、コンテキストと因果関係の注意でさらに微調整され、効率的なKVキャッシュで自動回帰生成を促進することができます。
実験は、LCTがコヒーレントなマルチショットシーンを生成し、構成生成やインタラクティブなショットエクステンションを含む新たな機能を展示し、より実用的な視覚的コンテンツの作成への道を開くと、シングルショットモデルを実証します。
詳細については、https://guoyww.github.io/projects/long-context-video/を参照してください。
要約(オリジナル)
Recent advances in video generation can produce realistic, minute-long single-shot videos with scalable diffusion transformers. However, real-world narrative videos require multi-shot scenes with visual and dynamic consistency across shots. In this work, we introduce Long Context Tuning (LCT), a training paradigm that expands the context window of pre-trained single-shot video diffusion models to learn scene-level consistency directly from data. Our method expands full attention mechanisms from individual shots to encompass all shots within a scene, incorporating interleaved 3D position embedding and an asynchronous noise strategy, enabling both joint and auto-regressive shot generation without additional parameters. Models with bidirectional attention after LCT can further be fine-tuned with context-causal attention, facilitating auto-regressive generation with efficient KV-cache. Experiments demonstrate single-shot models after LCT can produce coherent multi-shot scenes and exhibit emerging capabilities, including compositional generation and interactive shot extension, paving the way for more practical visual content creation. See https://guoyww.github.io/projects/long-context-video/ for more details.
arxiv情報
著者 | Yuwei Guo,Ceyuan Yang,Ziyan Yang,Zhibei Ma,Zhijie Lin,Zhenheng Yang,Dahua Lin,Lu Jiang |
発行日 | 2025-03-13 17:40:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google