UltraVideo: High-Quality UHD Video Dataset with Comprehensive Captions

要約

ビデオデータセットの品質(画質、解像度、および細かいキャプション)は、ビデオ生成モデルのパフォーマンスに大きく影響します。
ビデオアプリケーションに対する需要の高まりは、高品質のビデオ生成モデルに高い要件を設定します。
たとえば、映画レベルの超高定義(UHD)ビデオの生成と4Kショートビデオコンテンツの作成。
ただし、既存のパブリックデータセットは、関連する調査とアプリケーションをサポートすることはできません。
この論文では、最初に、高品質のオープンソースのUHD-4K(22.4 \%は8K)というテキストからビデオへのテキストからVideoデータセットを提案します。これには、幅広いトピック(100種類以上)が含まれており、各ビデオには1つの要約キャプション(平均824ワード)を含む9つの構造化されたキャプションがあります。
具体的には、4つのステージで高度に自動化されたキュレーションプロセスを慎重に設計して、最終的な高品質のデータセット:\ textit {i)}多様で高品質のビデオクリップのコレクションを取得します。
\ textit {ii)}統計データフィルタリング。
\ textit {iii)}モデルベースのデータ浄化。
\ textit {iv)}包括的な構造化されたキャプションの生成。
さらに、WANをUltrawan-1K/-4Kに拡張し、より一貫したテキスト制御性を備えた高品質の1K/4Kビデオをネイティブに生成でき、データキュレーションの有効性を示しています。
Ultravideo DatasetおよびUltrawanモデルは、https://xzc-zju.github.io/projects/ultravideoで入手できます。

要約(オリジナル)

The quality of the video dataset (image quality, resolution, and fine-grained caption) greatly influences the performance of the video generation model. The growing demand for video applications sets higher requirements for high-quality video generation models. For example, the generation of movie-level Ultra-High Definition (UHD) videos and the creation of 4K short video content. However, the existing public datasets cannot support related research and applications. In this paper, we first propose a high-quality open-sourced UHD-4K (22.4\% of which are 8K) text-to-video dataset named UltraVideo, which contains a wide range of topics (more than 100 kinds), and each video has 9 structured captions with one summarized caption (average of 824 words). Specifically, we carefully design a highly automated curation process with four stages to obtain the final high-quality dataset: \textit{i)} collection of diverse and high-quality video clips. \textit{ii)} statistical data filtering. \textit{iii)} model-based data purification. \textit{iv)} generation of comprehensive, structured captions. In addition, we expand Wan to UltraWan-1K/-4K, which can natively generate high-quality 1K/4K videos with more consistent text controllability, demonstrating the effectiveness of our data curation.We believe that this work can make a significant contribution to future research on UHD video generation. UltraVideo dataset and UltraWan models are available at https://xzc-zju.github.io/projects/UltraVideo.

arxiv情報

著者 Zhucun Xue,Jiangning Zhang,Teng Hu,Haoyang He,Yinan Chen,Yuxuan Cai,Yabiao Wang,Chengjie Wang,Yong Liu,Xiangtai Li,Dacheng Tao
発行日 2025-06-16 16:52:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク