要約
ビデオ生成の最近の進歩は、拡散モデルと自己回帰フレームワークによって推進されていますが、迅速なアドヒアランス、視覚品質、モーションダイナミクス、および持続時間の調和に重大な課題が続いています。動きのダイナミクスの妥協は、一時的な視覚品質を強化し、制約されたビデオ持続時間(5〜10秒)を強化して解決策を優先し、障害のあるGrimcationを解釈することを妨げているショットアウェアの世代を解釈します。
ショットの構成、俳優の表現、カメラの動き。
これらの絡み合った制限は、現実的な長型の統合とプロの映画スタイルの世代を妨げます。
これらの制限に対処するために、マルチモーダルラージランゲージモデル(MLLM)、マルチステージの事前トレーニング、補強学習、および拡散強制フレームワークを相乗的にする無限の長さのフィルム生成モデルであるSkyreels-V2を提案します。
まず、マルチモーダルLLMとサブ専門モデルによる詳細なショット言語を組み合わせたビデオの包括的な構造表現を設計します。
その後、人間の注釈を支援し、Skycaptioner-V1という名前の統一ビデオキャプションを訓練して、ビデオデータを効率的にラベル付けします。
第二に、基本的なビデオ生成のためにプログレッシブ解像度の事前化を確立し、続いてトレーニング後の4段階の拡張を続けます。
人間と合成の歪みデータを使用したモーション固有の強化学習(RL)トレーニングは、動的アーティファクトに対処します。
非脱落ノイズスケジュールを使用した当社の拡散強制フレームワークにより、効率的な検索スペースで長距離合成が可能になります。
最終的な高品質のSFTは、視覚的な忠実度を改良します。
すべてのコードとモデルは、https://github.com/skyworkai/skyreels-v2で入手できます。
要約(オリジナル)
Recent advances in video generation have been driven by diffusion models and autoregressive frameworks, yet critical challenges persist in harmonizing prompt adherence, visual quality, motion dynamics, and duration: compromises in motion dynamics to enhance temporal visual quality, constrained video duration (5-10 seconds) to prioritize resolution, and inadequate shot-aware generation stemming from general-purpose MLLMs’ inability to interpret cinematic grammar, such as shot composition, actor expressions, and camera motions. These intertwined limitations hinder realistic long-form synthesis and professional film-style generation. To address these limitations, we propose SkyReels-V2, an Infinite-length Film Generative Model, that synergizes Multi-modal Large Language Model (MLLM), Multi-stage Pretraining, Reinforcement Learning, and Diffusion Forcing Framework. Firstly, we design a comprehensive structural representation of video that combines the general descriptions by the Multi-modal LLM and the detailed shot language by sub-expert models. Aided with human annotation, we then train a unified Video Captioner, named SkyCaptioner-V1, to efficiently label the video data. Secondly, we establish progressive-resolution pretraining for the fundamental video generation, followed by a four-stage post-training enhancement: Initial concept-balanced Supervised Fine-Tuning (SFT) improves baseline quality; Motion-specific Reinforcement Learning (RL) training with human-annotated and synthetic distortion data addresses dynamic artifacts; Our diffusion forcing framework with non-decreasing noise schedules enables long-video synthesis in an efficient search space; Final high-quality SFT refines visual fidelity. All the code and models are available at https://github.com/SkyworkAI/SkyReels-V2.
arxiv情報
著者 | Guibin Chen,Dixuan Lin,Jiangping Yang,Chunze Lin,Juncheng Zhu,Mingyuan Fan,Hao Zhang,Sheng Chen,Zheng Chen,Chengchen Ma,Weiming Xiong,Wei Wang,Nuo Pang,Kang Kang,Zhiheng Xu,Yuzhe Jin,Yupeng Liang,Yubing Song,Peng Zhao,Boyuan Xu,Di Qiu,Debang Li,Zhengcong Fei,Yang Li,Yahui Zhou |
発行日 | 2025-04-18 09:46:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google