VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation

要約

高品質のオープンドメイン ビデオを生成するための革新的なフレームワークである VideoFactory を紹介します。
VideoFactory は、透かしなしの高解像度 (1376×768)、ワイドスクリーン (16:9) ビデオの作成に優れており、魅力的なユーザー エクスペリエンスを作り出します。
テキストの指示に従ってビデオを生成するには、空間と時間の複雑な関係をモデル化することや、テキストとビデオを組み合わせた大規模なデータが不足していることなど、大きな課題が生じます。
以前のアプローチは、ビデオ生成用の時間 1D 畳み込み/アテンション モジュールを追加することで、事前トレーニングされたテキストから画像への生成モデルを拡張しました。
ただし、これらのアプローチでは、空間と時間を共同モデリングすることの重要性が見落とされており、必然的にテキストとビデオ間の時間的な歪みや不整合が発生します。
この論文では、空間認識と時間認識の間の相互作用を強化する新しいアプローチを提案します。
特に、空間ブロックと時間ブロックの間で「クエリ」の役割を交互に行い、相互の強化を可能にする 3D ウィンドウのスワップ クロス アテンション メカニズムを利用します。
高品質ビデオ生成のためのモデル機能を完全に解放するために、HD-VG-130M と呼ばれる大規模なビデオ データセットを厳選しました。
このデータセットは、オープンドメインからの 1 億 3,000 万のテキストとビデオのペアで構成されており、高解像度、ワイドスクリーン、透かしのない文字を保証します。
客観的な指標とユーザー調査は、フレームごとの品質、時間的相関、テキストとビデオの位置合わせの点で、明確なマージンを備えた当社のアプローチの優位性を実証しています。

要約(オリジナル)

We present VideoFactory, an innovative framework for generating high-quality open-domain videos. VideoFactory excels in producing high-definition (1376×768), widescreen (16:9) videos without watermarks, creating an engaging user experience. Generating videos guided by text instructions poses significant challenges, such as modeling the complex relationship between space and time, and the lack of large-scale text-video paired data. Previous approaches extend pretrained text-to-image generation models by adding temporal 1D convolution/attention modules for video generation. However, these approaches overlook the importance of jointly modeling space and time, inevitably leading to temporal distortions and misalignment between texts and videos. In this paper, we propose a novel approach that strengthens the interaction between spatial and temporal perceptions. In particular, we utilize a swapped cross-attention mechanism in 3D windows that alternates the ‘query’ role between spatial and temporal blocks, enabling mutual reinforcement for each other. To fully unlock model capabilities for high-quality video generation, we curate a large-scale video dataset called HD-VG-130M. This dataset comprises 130 million text-video pairs from the open-domain, ensuring high-definition, widescreen and watermark-free characters. Objective metrics and user studies demonstrate the superiority of our approach in terms of per-frame quality, temporal correlation, and text-video alignment, with clear margins.

arxiv情報

著者 Wenjing Wang,Huan Yang,Zixi Tuo,Huiguo He,Junchen Zhu,Jianlong Fu,Jiaying Liu
発行日 2023-06-12 10:37:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク