LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

要約

ビデオ生成モデルの有効性は、トレーニング データセットの品質に大きく依存します。
以前のほとんどのビデオ生成モデルは短いビデオ クリップでトレーニングされていましたが、最近では長いビデオ生成モデルをより長いビデオで直接トレーニングすることへの関心が高まっています。
しかし、そのような高品質の長時間ビデオが存在しないことが、長時間ビデオの生成の進歩を妨げています。
長いビデオ生成の研究を促進するには、長いビデオ生成モデルのトレーニングに不可欠な 4 つの主要な機能を備えた新しいデータセットが必要です。(1) 少なくとも 10 秒をカバーする長いビデオ、(2) カットのない長撮りビデオ、(3) 大規模な
動きと多様なコンテンツ、(4) 時間的に密度の高いキャプション。
これを実現するために、高品質の長時間ビデオを選択し、時間的に密度の高いキャプションを生成するための新しいパイプラインを導入します。
具体的には、シーン カット、ダイナミック度、セマンティック レベルの品質などのビデオ品質を定量的に評価する一連の指標を定義し、大量のソース ビデオから高品質の長時間ビデオをフィルタリングできるようにします。
続いて、時間的に密度の高いキャプションを長いビデオに注釈を付けるための階層型ビデオ キャプション パイプラインを開発します。
このパイプラインを使用して、最初の長撮りビデオ データセット LVD-2M をキュレーションします。これは、それぞれ 10 秒以上をカバーし、時間的に密なキャプションで注釈が付けられた 200 万の長撮りビデオで構成されます。
さらに、動的なモーションを含む長いビデオを生成するためにビデオ生成モデルを微調整することで、LVD-2M の有効性を検証します。
私たちの研究は、長時間ビデオ生成における将来の研究に大きく貢献すると信じています。

要約(オリジナル)

The efficacy of video generation models heavily depends on the quality of their training datasets. Most previous video generation models are trained on short video clips, while recently there has been increasing interest in training long video generation models directly on longer videos. However, the lack of such high-quality long videos impedes the advancement of long video generation. To promote research in long video generation, we desire a new dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions. To achieve this, we introduce a new pipeline for selecting high-quality long-take videos and generating temporally dense captions. Specifically, we define a set of metrics to quantitatively assess video quality including scene cuts, dynamic degrees, and semantic-level quality, enabling us to filter high-quality long-take videos from a large amount of source videos. Subsequently, we develop a hierarchical video captioning pipeline to annotate long videos with temporally-dense captions. With this pipeline, we curate the first long-take video dataset, LVD-2M, comprising 2 million long-take videos, each covering more than 10 seconds and annotated with temporally dense captions. We further validate the effectiveness of LVD-2M by fine-tuning video generation models to generate long videos with dynamic motions. We believe our work will significantly contribute to future research in long video generation.

arxiv情報

著者 Tianwei Xiong,Yuqing Wang,Daquan Zhou,Zhijie Lin,Jiashi Feng,Xihui Liu
発行日 2024-10-14 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク