STIV: Scalable Text and Image Conditioned Video Generation

要約

ビデオ生成の分野は目覚ましい進歩を遂げていますが、堅牢でスケーラブルなモデルの開発を導くことができる明確で体系的なレシピが依然として緊急に必要とされています。
この研究では、モデル アーキテクチャ、トレーニング レシピ、データ キュレーション戦略の相互作用を系統的に調査し、最終的に STIV と呼ばれるシンプルでスケーラブルなテキスト画像条件付きビデオ生成手法に到達する包括的な研究を紹介します。
私たちのフレームワークは、フレーム置換を通じて画像条件を拡散変換器 (DiT) に統合すると同時に、画像とテキストの結合条件付き分類子を使用しないガイダンスによってテキスト条件付けを組み込みます。
この設計により、STIV はテキストからビデオへのタスク (T2V) とテキストからビデオへのタスク (TI2V) の両方を同時に実行できます。
さらに、STIV は、ビデオ予測、フレーム補間、マルチビュー生成、長時間ビデオ生成などのさまざまなアプリケーションに簡単に拡張できます。T2I、T2V、および TI2V に関する包括的なアブレーション研究により、STIV は、その機能にもかかわらず強力なパフォーマンスを示します。
シンプルなデザイン。
512 解像度の 8.7B モデルは、VBench T2V で 83.1 を達成し、CogVideoX-5B、Pika、Kling、Gen-3 などの主要なオープン ソース モデルとクローズド ソース モデルの両方を上回ります。
同じサイズのモデルでも、512 解像度の VBench I2V タスクで 90.1 という最先端の結果を達成しました。
最先端のビデオ生成モデルを構築するための透過的で拡張可能なレシピを提供することで、将来の研究を強化し、より多用途で信頼性の高いビデオ生成ソリューションへの進歩を加速することを目指しています。

要約(オリジナル)

The field of video generation has made remarkable advancements, yet there remains a pressing need for a clear, systematic recipe that can guide the development of robust and scalable models. In this work, we present a comprehensive study that systematically explores the interplay of model architectures, training recipes, and data curation strategies, culminating in a simple and scalable text-image-conditioned video generation method, named STIV. Our framework integrates image condition into a Diffusion Transformer (DiT) through frame replacement, while incorporating text conditioning via a joint image-text conditional classifier-free guidance. This design enables STIV to perform both text-to-video (T2V) and text-image-to-video (TI2V) tasks simultaneously. Additionally, STIV can be easily extended to various applications, such as video prediction, frame interpolation, multi-view generation, and long video generation, etc. With comprehensive ablation studies on T2I, T2V, and TI2V, STIV demonstrate strong performance, despite its simple design. An 8.7B model with 512 resolution achieves 83.1 on VBench T2V, surpassing both leading open and closed-source models like CogVideoX-5B, Pika, Kling, and Gen-3. The same-sized model also achieves a state-of-the-art result of 90.1 on VBench I2V task at 512 resolution. By providing a transparent and extensible recipe for building cutting-edge video generation models, we aim to empower future research and accelerate progress toward more versatile and reliable video generation solutions.

arxiv情報

著者 Zongyu Lin,Wei Liu,Chen Chen,Jiasen Lu,Wenze Hu,Tsu-Jui Fu,Jesse Allardice,Zhengfeng Lai,Liangchen Song,Bowen Zhang,Cha Chen,Yiran Fei,Yifan Jiang,Lezhi Li,Yizhou Sun,Kai-Wei Chang,Yinfei Yang
発行日 2024-12-10 18:27:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM パーマリンク