OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

要約

画像とテキストが交互に配置されたデータは、自然な文書形式に配置された複数の画像とテキストで構成されており、インターネット データのプレゼンテーション パラダイムと一致しており、人間の読書習慣によく似ています。
最近の研究では、そのようなデータがマルチモーダルなコンテキスト内学習を支援し、マルチモーダルな微調整中に大規模な言語モデルの機能を維持することが示されています。
ただし、現在の画像とテキストがインターリーブされたデータの規模と多様性は限られているため、マルチモーダルな大規模言語モデルの開発は制限されています。
この論文では、100 億規模の画像とテキストがインターリーブされたデータセットである OmniCorpus を紹介します。
効率的なデータ エンジンを使用して、86 億の画像と 1 兆 6,960 億のテキスト トークンを含む大規模な高品質ドキュメントをフィルタリングして抽出します。
対応するもの (MMC4、OBELICS など) と比較して、私たちのデータセット 1) は良好なデータ品質を維持しながら 15 倍のスケールを持っています。
2) 英語と英語以外の両方の Web サイト、ビデオ中心の Web サイトなど、より多様なソースを特徴としています。
3) はより柔軟で、画像とテキストのインターリーブ形式から純粋なテキスト コーパスおよび画像とテキストのペアに簡単に分解できます。
包括的な分析と実験を通じて、提案されたデータセットの品質、使いやすさ、有効性を検証します。
これが将来のマルチモーダル モデル研究に強固なデータ基盤を提供できることを願っています。
コードとデータは https://github.com/OpenGVLab/OmniCorpus で公開されています。

要約(オリジナル)

Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.

arxiv情報

著者 Qingyun Li,Zhe Chen,Weiyun Wang,Wenhai Wang,Shenglong Ye,Zhenjiang Jin,Guanzhou Chen,Yinan He,Zhangwei Gao,Erfei Cui,Jiashuo Yu,Hao Tian,Jiasheng Zhou,Chao Xu,Bin Wang,Xingjian Wei,Wei Li,Wenjian Zhang,Bo Zhang,Pinlong Cai,Licheng Wen,Xiangchao Yan,Pei Chu,Yi Wang,Min Dou,Changyao Tian,Xizhou Zhu,Lewei Lu,Yushi Chen,Junjun He,Tong Lu,Yali Wang,Limin Wang,Dahua Lin,Yu Qiao,Botian Shi,Conghui He,Jifeng Dai
発行日 2024-06-12 17:01:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク