要約
最近のオープンソーステキストからビデオへの生成モデルの急増は、研究コミュニティを大幅に活性化しましたが、独自のトレーニングデータセットへの依存は依然として重要な制約のままです。
Koala-36Mのような既存のオープンデータセットは、初期のプラットフォームからのWebスクラップビデオのアルゴリズムフィルタリングを採用していますが、高度な高度なビデオ生成モデルに必要な品質がまだ不足しています。
ユーザー生成コンテンツ(UGC)プラットフォームから調達された手動でキュレーションされた高視覚品質のビデオデータセットであるTiger200Kを提示します。
Tiger200Kは、視覚的な忠実度と審美的品質に優先順位を付けることで、データキュレーションにおける人間の専門知識の重要な役割を強調し、ショット境界検出、OCR、モーションフィルター、および細かいバイリンガルキャプションを含むシンプルだが効果的なパイプラインを介して、微調整と最適化のビデオ生成アーキテクチャを微調整し、最適化するための高品質で時間的に一貫したビデオテキストペアを提供します。
データセットは継続的な拡張を受け、ビデオ生成モデルの研究とアプリケーションを促進するためのオープンソースイニシアチブとしてリリースされます。
プロジェクトページ:https://tinytigerpan.github.io/tiger200k/
要約(オリジナル)
The recent surge in open-source text-to-video generation models has significantly energized the research community, yet their dependence on proprietary training datasets remains a key constraint. While existing open datasets like Koala-36M employ algorithmic filtering of web-scraped videos from early platforms, they still lack the quality required for fine-tuning advanced video generation models. We present Tiger200K, a manually curated high visual quality video dataset sourced from User-Generated Content (UGC) platforms. By prioritizing visual fidelity and aesthetic quality, Tiger200K underscores the critical role of human expertise in data curation, and providing high-quality, temporally consistent video-text pairs for fine-tuning and optimizing video generation architectures through a simple but effective pipeline including shot boundary detection, OCR, border detecting, motion filter and fine bilingual caption. The dataset will undergo ongoing expansion and be released as an open-source initiative to advance research and applications in video generative models. Project page: https://tinytigerpan.github.io/tiger200k/
arxiv情報
著者 | Xianpan Zhou |
発行日 | 2025-04-21 15:44:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google