要約
テキストからビデオへの生成モデルは、テキストプロンプトを動的な視覚コンテンツに変換し、映画制作、ゲーム、教育における幅広いアプリケーションを提供します。
ただし、実際のパフォーマンスはユーザーの期待に達していないことがよくあります。
重要な理由の1つは、これらのモデルがユーザーが作成したいトピックに関連するビデオでトレーニングされていないことです。
この論文では、実際のシナリオでユーザーの焦点に合わせてキュレートされた最初のビデオデータセットであるVideoufoを提案します。
これを超えて、私たちのVideoufoは、(1)既存のビデオデータセットと重複する最小(0.29%)、および(2)Creative Commonsライセンスの下でYouTubeの公式APIを介して独占的に検索されたビデオも機能しています。
これらの2つの属性は、将来の研究者に、トレーニングソースを広げる自由をより強く提供します。
Videoufoは、109万を超えるビデオクリップで構成されており、それぞれが簡単なキャプションと詳細なキャプション(説明)の両方と組み合わされています。
具体的には、クラスタリングを通じて、最初に、100万スケールの実際のテキストからビデオへのプロンプトデータセットであるVidpromから1,291のユーザー中心のトピックを特定します。
次に、これらのトピックを使用して、YouTubeからビデオを取得し、取得したビデオをクリップに分割し、各クリップの簡単なキャプションと詳細なキャプションの両方を生成します。
指定されたトピックを使用してクリップを確認した後、約109万のビデオクリップが残ります。
私たちの実験は、(1)現在の16のテキストからビデオへのモデルが、すべてのユーザー中心のトピックで一貫したパフォーマンスを達成していないことを明らかにしています。
(2)Videoufoで訓練された単純なモデルは、最悪のパフォーマンスのトピックについて他の人を上回ります。
データセットとコードは、https://huggingface.co/datasets/wenhaowang/videoufoおよびhttps://github.com/wangwenhao0716/benchufoで、4.0ライセンスでCCで公開されています。
要約(オリジナル)
Text-to-video generative models convert textual prompts into dynamic visual content, offering wide-ranging applications in film production, gaming, and education. However, their real-world performance often falls short of user expectations. One key reason is that these models have not been trained on videos related to some topics users want to create. In this paper, we propose VideoUFO, the first Video dataset specifically curated to align with Users’ FOcus in real-world scenarios. Beyond this, our VideoUFO also features: (1) minimal (0.29%) overlap with existing video datasets, and (2) videos searched exclusively via YouTube’s official API under the Creative Commons license. These two attributes provide future researchers with greater freedom to broaden their training sources. The VideoUFO comprises over 1.09 million video clips, each paired with both a brief and a detailed caption (description). Specifically, through clustering, we first identify 1,291 user-focused topics from the million-scale real text-to-video prompt dataset, VidProM. Then, we use these topics to retrieve videos from YouTube, split the retrieved videos into clips, and generate both brief and detailed captions for each clip. After verifying the clips with specified topics, we are left with about 1.09 million video clips. Our experiments reveal that (1) current 16 text-to-video models do not achieve consistent performance across all user-focused topics; and (2) a simple model trained on VideoUFO outperforms others on worst-performing topics. The dataset and code are publicly available at https://huggingface.co/datasets/WenhaoWang/VideoUFO and https://github.com/WangWenhao0716/BenchUFO under the CC BY 4.0 License.
arxiv情報
著者 | Wenhao Wang,Yi Yang |
発行日 | 2025-05-13 16:54:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google