2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

要約

画像テキストペアデータと比較して、インターリーブコーポラは、ビジョン言語モデル(VLM)を可能にし、人間のように世界をより自然に理解できます。
ただし、このような既存のデータセットは、Webページからrawいされ、知識の密度が低く、画像テキストの関係が緩んだ、画像間の論理的一貫性が低いなどの課題に直面しています。
一方、インターネットは、人間が基本的な主題を学ぶために広く使用されている膨大な教育ビデオ(オンラインジオメトリコースなど)をホストしていますが、これらの貴重なリソースはVLMトレーニングでは採用されていないままです。
このホワイトペーパーでは、VLM事前化の豊富な基礎知識を持つ高品質の\ TextBF {Multimodal Textbook}コーパスを紹介します。
2。5年以上の教育ビデオを収集し、合計22,000時間の授業時間です。
最初にLLMプロポーション分類法を使用して、教育ビデオを体系的に収集します。
次に、ビデオから視覚(キーフレーム)、オーディオ(ASR)、およびテキスト知識(OCR)を徐々に抽出および改良し、時間的順序に基づいて画像テキストインターリーブコーパスとして整理します。
カウンターパートと比較して、私たちのビデオ中心の教科書は、より首尾一貫したコンテキスト、より豊かな知識、より良い画像テキストのアラインメントを提供します。
実験は、特にScienceQAやMathvistaなどの知識と推論集約型のタスクにおいて、その素晴らしい事前トレーニングパフォーマンスを示しています。
さらに、私たちの教科書で事前に訓練されたVLMは、タスク解決のための少数のショットコンテキストで視覚的およびテキストの手がかりを活用して、傑出したインターリーブコンテキストの認識を示しています。
当社のコードは、https://github.com/damo-nlp-sg/multimodal_textbookで入手できます。

要約(オリジナル)

Compared to image-text pair data, interleaved corpora enable Vision-Language Models (VLMs) to understand the world more naturally like humans. However, such existing datasets are crawled from webpage, facing challenges like low knowledge density, loose image-text relations, and poor logical coherence between images. On the other hand, the internet hosts vast instructional videos (e.g., online geometry courses) that are widely used by humans to learn foundational subjects, yet these valuable resources remain underexplored in VLM training. In this paper, we introduce a high-quality \textbf{multimodal textbook} corpus with richer foundational knowledge for VLM pretraining. It collects over 2.5 years of instructional videos, totaling 22,000 class hours. We first use an LLM-proposed taxonomy to systematically gather instructional videos. Then we progressively extract and refine visual (keyframes), audio (ASR), and textual knowledge (OCR) from the videos, and organize as an image-text interleaved corpus based on temporal order. Compared to its counterparts, our video-centric textbook offers more coherent context, richer knowledge, and better image-text alignment. Experiments demonstrate its superb pretraining performance, particularly in knowledge- and reasoning-intensive tasks like ScienceQA and MathVista. Moreover, VLMs pre-trained on our textbook exhibit outstanding interleaved context awareness, leveraging visual and textual cues in their few-shot context for task solving. Our code are available at https://github.com/DAMO-NLP-SG/multimodal_textbook.

arxiv情報

著者 Wenqi Zhang,Hang Zhang,Xin Li,Jiashuo Sun,Yongliang Shen,Weiming Lu,Deli Zhao,Yueting Zhuang,Lidong Bing
発行日 2025-01-27 18:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク