OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation

要約

Text-to-Video(T2V)生成は、大規模なマルチモダリティ モデル Sora のおかげで、最近大きな注目を集めています。
しかし、T2V 生成は依然として 2 つの重要な課題に直面しています: 1) 正確なオープンソースの高品質データセットが不足している。
以前の人気のあるビデオ データセット。
WebVid-10M と Panda-70M は、品質が低いか、ほとんどの研究機関にとって大きすぎます。
したがって、T2V 生成用に正確な高品質のテキストとビデオのペアを収集することは困難ではありますが、非常に重要です。
2)文字情報を最大限に活用するために無視する。
最近の T2V 手法は、ビデオ生成に単純なクロス アテンション モジュールを使用するビジョン トランスフォーマーに焦点を当てていますが、テキスト プロンプトから意味論的な情報を完全に抽出するには至っていません。
これらの問題に対処するために、表現力豊かなキャプションを備えた正確で高品質なデータセットである OpenVid-1M を導入します。
このオープン シナリオ データセットには 100 万を超えるテキストとビデオのペアが含まれており、T2V 生成の研究を促進します。
さらに、OpenVid-1M から 433K 1080p ビデオを厳選して OpenVidHD-0.4M を作成し、高解像度ビデオの生成を進めます。
さらに、ビジュアルトークンからの構造情報とテキストトークンからのセマンティック情報の両方をマイニングできる新しいマルチモーダルビデオ拡散トランスフォーマー(MVDiT)を提案します。
広範な実験とアブレーション研究により、以前のデータセットに対する OpenVid-1M の優位性と MVDiT の有効性が検証されています。

要約(オリジナル)

Text-to-video (T2V) generation has recently garnered significant attention thanks to the large multi-modality model Sora. However, T2V generation still faces two important challenges: 1) Lacking a precise open sourced high-quality dataset. The previous popular video datasets, e.g. WebVid-10M and Panda-70M, are either with low quality or too large for most research institutions. Therefore, it is challenging but crucial to collect a precise high-quality text-video pairs for T2V generation. 2) Ignoring to fully utilize textual information. Recent T2V methods have focused on vision transformers, using a simple cross attention module for video generation, which falls short of thoroughly extracting semantic information from text prompt. To address these issues, we introduce OpenVid-1M, a precise high-quality dataset with expressive captions. This open-scenario dataset contains over 1 million text-video pairs, facilitating research on T2V generation. Furthermore, we curate 433K 1080p videos from OpenVid-1M to create OpenVidHD-0.4M, advancing high-definition video generation. Additionally, we propose a novel Multi-modal Video Diffusion Transformer (MVDiT) capable of mining both structure information from visual tokens and semantic information from text tokens. Extensive experiments and ablation studies verify the superiority of OpenVid-1M over previous datasets and the effectiveness of our MVDiT.

arxiv情報

著者 Kepan Nan,Rui Xie,Penghao Zhou,Tiehan Fan,Zhenheng Yang,Zhijie Chen,Xiang Li,Jian Yang,Ying Tai
発行日 2024-07-02 15:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク