Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

要約

データとアノテーションの品質は、下流モデルの品質の上限となります。
大規模なテキスト コーパスや画像とテキストのペアは存在しますが、高品質のビデオとテキストのデータを収集するのははるかに困難です。
まず、手動ラベル付けでは、アノテーターがビデオ全体を視聴する必要があるため、時間がかかります。
第 2 に、ビデオには時間的な側面があり、積み重ねられた複数のシーンで構成され、複数のアクションが表示されます。
したがって、高品質のキャプションを含むビデオ データセットを確立するために、テキストによるビデオ説明、サブタイトル、個々のビデオ フレームなどのマルチモーダル入力を活用する自動アプローチを提案します。
具体的には、公開されている HD-VILA-100M データセットから 3.8M の高解像度ビデオを厳選しています。
次に、それらを意味的に一貫したビデオ クリップに分割し、複数のクロスモダリティ教師モデルを適用して各ビデオのキャプションを取得します。
次に、各ビデオの最適なキャプションが手動で選択される小さなサブセットで検索モデルを微調整し、そのモデルをデータセット全体で使用して、最適なキャプションをアノテーションとして選択します。
このようにして、高品質のテキスト キャプションを組み合わせた 7,000 万本のビデオを取得します。
このデータセットを Panda-70M と名付けます。
ビデオキャプション、ビデオとテキストの取得、テキスト駆動型ビデオ生成という 3 つの下流タスクにおける提案されたデータセットの価値を示します。
提案されたデータに基づいてトレーニングされたモデルは、すべてのタスクにわたる大部分のメトリクスで大幅に優れたスコアを獲得しました。

要約(オリジナル)

The quality of the data and annotation upper-bounds the quality of a downstream model. While there exist large text corpora and image-text pairs, high-quality video-text data is much harder to collect. First of all, manual labeling is more time-consuming, as it requires an annotator to watch an entire video. Second, videos have a temporal dimension, consisting of several scenes stacked together, and showing multiple actions. Accordingly, to establish a video dataset with high-quality captions, we propose an automatic approach leveraging multimodal inputs, such as textual video description, subtitles, and individual video frames. Specifically, we curate 3.8M high-resolution videos from the publicly available HD-VILA-100M dataset. We then split them into semantically consistent video clips, and apply multiple cross-modality teacher models to obtain captions for each video. Next, we finetune a retrieval model on a small subset where the best caption of each video is manually selected and then employ the model in the whole dataset to select the best caption as the annotation. In this way, we get 70M videos paired with high-quality text captions. We dub the dataset as Panda-70M. We show the value of the proposed dataset on three downstream tasks: video captioning, video and text retrieval, and text-driven video generation. The models trained on the proposed data score substantially better on the majority of metrics across all the tasks.

arxiv情報

著者 Tsai-Shien Chen,Aliaksandr Siarohin,Willi Menapace,Ekaterina Deyneka,Hsiang-wei Chao,Byung Eun Jeon,Yuwei Fang,Hsin-Ying Lee,Jian Ren,Ming-Hsuan Yang,Sergey Tulyakov
発行日 2024-02-29 18:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク