Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks

要約

中国人コミュニティにおける視覚言語事前トレーニング (VLP) とマルチモーダル大規模言語モデル (LLM) の開発を促進するために、私たちはまず、Youku-mPLUG という名前の最大の公開中国語高品質ビデオ言語データセットをリリースします。
Youku は、安全性、多様性、品質の厳格な基準を備えた中国の有名な動画共有 Web サイトです。
Youku-mPLUG には、大規模な事前トレーニング用に、45 の多様なカテゴリにわたる 4 億の生ビデオからフィルタリングされた 1,000 万の中国語ビデオとテキストのペアが含まれています。
さらに、ビデオ言語モデルの包括的な評価を促進するために、クロスモーダル検索、ビデオ キャプション、ビデオ カテゴリ分類という 3 つの一般的なビデオ言語タスクをカバーする、人間による注釈付きの最大規模の中国語ベンチマークを慎重に構築しました。
Youku-mPLUG を使用すると、研究者はより詳細なマルチモーダル研究を実施し、将来的にはより優れたアプリケーションを開発できるようになります。
さらに、人気のあるビデオ言語の事前トレーニング モデルである ALPRO および mPLUG-2 と、Youku-mPLUG で事前トレーニングされた、私たちが提案するモジュール化されたデコーダー専用モデル mPLUG-video をリリースします。
実験の結果、Youku-mPLUG で事前トレーニングされたモデルはビデオ カテゴリ分類において最大 23.1% 向上することがわかりました。
さらに、mPLUG-video は、これらのベンチマークで、ビデオ カテゴリ分類で 80.5% のトップ 1 精度、ビデオ キャプションで 68.9 CIDEr スコアという、それぞれ新しい最先端の結果を達成しました。
最後に、中国のマルチモーダル LLM としてトレーニング可能なパラメーターが 1.7% のみである凍結された Bloomz に基づいて mPLUG ビデオをスケールアップし、優れた指示とビデオ理解能力を実証します。
ゼロショット命令理解実験は、Youku-mPLUG を使用した事前トレーニングにより、全体的かつ詳細な視覚的セマンティクスを理解し、シーン テキストを認識し、オープン ドメインの知識を活用する能力を強化できることを示しています。

要約(オリジナル)

To promote the development of Vision-Language Pre-training (VLP) and multimodal Large Language Model (LLM) in the Chinese community, we firstly release the largest public Chinese high-quality video-language dataset named Youku-mPLUG, which is collected from Youku, a well-known Chinese video-sharing website, with strict criteria of safety, diversity, and quality. Youku-mPLUG contains 10 million Chinese video-text pairs filtered from 400 million raw videos across a wide range of 45 diverse categories for large-scale pre-training. In addition, to facilitate a comprehensive evaluation of video-language models, we carefully build the largest human-annotated Chinese benchmarks covering three popular video-language tasks of cross-modal retrieval, video captioning, and video category classification. Youku-mPLUG can enable researchers to conduct more in-depth multimodal research and develop better applications in the future. Furthermore, we release popular video-language pre-training models, ALPRO and mPLUG-2, and our proposed modularized decoder-only model mPLUG-video pre-trained on Youku-mPLUG. Experiments show that models pre-trained on Youku-mPLUG gain up to 23.1% improvement in video category classification. Besides, mPLUG-video achieves a new state-of-the-art result on these benchmarks with 80.5% top-1 accuracy in video category classification and 68.9 CIDEr score in video captioning, respectively. Finally, we scale up mPLUG-video based on the frozen Bloomz with only 1.7% trainable parameters as Chinese multimodal LLM, and demonstrate impressive instruction and video understanding ability. The zero-shot instruction understanding experiment indicates that pretraining with Youku-mPLUG can enhance the ability to comprehend overall and detailed visual semantics, recognize scene text, and leverage open-domain knowledge.

arxiv情報

著者 Haiyang Xu,Qinghao Ye,Xuan Wu,Ming Yan,Yuan Miao,Jiabo Ye,Guohai Xu,Anwen Hu,Yaya Shi,Guangwei Xu,Chenliang Li,Qi Qian,Maofei Que,Ji Zhang,Xiao Zeng,Fei Huang
発行日 2023-06-07 11:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク