要約
ビデオ生成の最近の進歩は、計算コストのエスカレートを緩和するためにますます効率的なトレーニングレシピを需要しています。
このレポートでは、256 x 64GBのニューラル加工ユニット(NPU)をわずか4週間トレーニングした後、最先端のパフォーマンス(VBenchで85.14)を達成する8BパラメーターテキストからビデオへのcontentVを提示します。
ContentVは、テキストプロンプトからの複数の解像度と期間にわたって多様で高品質のビデオを生成し、3つの重要なイノベーションによって有効になります。(1)ビデオ生成の事前訓練を受けた画像生成モデルの再利用を最大化するミニマリストアーキテクチャ。
(2)効率を向上させるためのフローマッチングを活用する体系的なマルチステージトレーニング戦略。
(3)追加の人間の注釈を必要とせずに生成品質を向上させる人間のフィードバックフレームワークによる費用対効果の高い強化学習。
すべてのコードとモデルは、https://contentv.github.ioで入手できます。
要約(オリジナル)
Recent advances in video generation demand increasingly efficient training recipes to mitigate escalating computational costs. In this report, we present ContentV, an 8B-parameter text-to-video model that achieves state-of-the-art performance (85.14 on VBench) after training on 256 x 64GB Neural Processing Units (NPUs) for merely four weeks. ContentV generates diverse, high-quality videos across multiple resolutions and durations from text prompts, enabled by three key innovations: (1) A minimalist architecture that maximizes reuse of pre-trained image generation models for video generation; (2) A systematic multi-stage training strategy leveraging flow matching for enhanced efficiency; and (3) A cost-effective reinforcement learning with human feedback framework that improves generation quality without requiring additional human annotations. All the code and models are available at: https://contentv.github.io.
arxiv情報
著者 | Wenfeng Lin,Renjie Chen,Boyuan Liu,Shiyue Yan,Ruoyu Feng,Jiangchuan Wei,Yichen Zhang,Yimeng Zhou,Chao Feng,Jiao Ran,Qi Wu,Zuotao Liu,Mingyu Guo |
発行日 | 2025-06-11 15:48:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google