要約
テキストからビデオへの生成は、拡散モデルの出現により有望な進歩を実証していますが、既存のアプローチはデータセットの品質と計算リソースによって制限されています。
これらの制限に対処するために、このペーパーでは、データキュレーションとモデル設計の両方を進める包括的なアプローチを提示します。
CFC-VIDS-1Mを紹介します。CFC-VIDS-1Mは、体系的な粗からファインキュレーションパイプラインを介して構築された高品質のビデオデータセットを紹介します。
パイプラインは、最初に複数の次元にわたってビデオの品質を評価し、次に視覚言語モデルを活用してテキストビデオアライメントとセマンティックな豊かさを強化する微調整された段階を評価します。
キュレーションされたデータセットが視覚の品質と時間的一貫性に重点を置いていることに基づいて、分離された空間的注意メカニズムを備えた変圧器ベースのアーキテクチャであるRaccoonを開発します。
このモデルは、ビデオ生成の複雑さを効率的に処理するように設計されたプログレッシブ4ステージ戦略を通じてトレーニングされています。
広範な実験は、高品質のデータキュレーションと効率的なトレーニング戦略の統合アプローチが、計算効率を維持しながら視覚的に魅力的で一時的にコヒーレントなビデオを生成することを示しています。
データセット、コード、モデルをリリースします。
要約(オリジナル)
Text-to-video generation has demonstrated promising progress with the advent of diffusion models, yet existing approaches are limited by dataset quality and computational resources. To address these limitations, this paper presents a comprehensive approach that advances both data curation and model design. We introduce CFC-VIDS-1M, a high-quality video dataset constructed through a systematic coarse-to-fine curation pipeline. The pipeline first evaluates video quality across multiple dimensions, followed by a fine-grained stage that leverages vision-language models to enhance text-video alignment and semantic richness. Building upon the curated dataset’s emphasis on visual quality and temporal coherence, we develop RACCOON, a transformer-based architecture with decoupled spatial-temporal attention mechanisms. The model is trained through a progressive four-stage strategy designed to efficiently handle the complexities of video generation. Extensive experiments demonstrate that our integrated approach of high-quality data curation and efficient training strategy generates visually appealing and temporally coherent videos while maintaining computational efficiency. We will release our dataset, code, and models.
arxiv情報
| 著者 | Zhiyu Tan,Junyan Wang,Hao Yang,Luozheng Qin,Hesen Chen,Qiang Zhou,Hao Li |
| 発行日 | 2025-02-28 18:56:35+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google