要約
タイトル:DataComp:次世代のマルチモーダルデータセットの探求
要約:
– クリップ、ステーブルディフュージョン、GPT-4などの最近のブレークスルーには、多くのマルチモーダルデータセットが役立っている。
– 一方で、データセットは、モデルアーキテクチャやトレーニングアルゴリズムと同じように研究の注目を受けることはめったにない。
– 機械学習のエコシステムのこの欠点に対処するために、固定されたトレーニングコードとともに、リサーチャーが新しいトレーニングセットを提案することでイノベーションするDataCompを導入する。
– Common Crawlからの新しい候補プールの中心になるデータセット実験のテストベッドを提供する。
– 参加者は、新しいフィルタリング技術を設計するか、新しいデータソースをキュレーションし、次にCLIPトレーニングコードを実行して、標準化された38の下流テストセットで評価する。
– 我々のベンチマークは、4つの候補プールサイズとトレーニング中に見られるサンプル数12.8M〜12.8Bを含む複数のスケールで構成されており、様々なリソースを持つ研究者にとっても利用しやすいように設計されている。
– ベースライン実験により、DataCompワークフローがマルチモーダルデータセットの改善の有望な方法であることが示された。
– 我々は、12.8Bの候補プールに簡単なフィルタリングアルゴリズムを適用して作成されたDataComp-1Bを導入する。
– 結果として得られた1.4Bのサブセットは、ImageNet上でCLIP ViT-L/14を0ショットの正確度が79.2%になるようにゼロからトレーニングできる。
– 我々の新しいViT-L/14モデルは、LAION-2Bでトレーニングされたよりも9倍少ないトレーニングコンピューティングを必要としながら、0.7ポイントの精度で上回る。
– 同じコンピューティング予算でトレーニングされたOpenAIのCLIP ViT-L/14よりも3.7ポイント上回ることが示されており、トレーニングセットの慎重なキュレーションによるモデルパフォーマンスの向上の可能性があることを強調している。
– 我々はDataComp-1Bを単なる最初のステップと見なし、DataCompが次世代のマルチモーダルデータセットへの道を切り拓くことを望んでいる。
要約(オリジナル)
Large multimodal datasets have been instrumental in recent breakthroughs such as CLIP, Stable Diffusion, and GPT-4. At the same time, datasets rarely receive the same research attention as model architectures or training algorithms. To address this shortcoming in the machine learning ecosystem, we introduce DataComp, a benchmark where the training code is fixed and researchers innovate by proposing new training sets. We provide a testbed for dataset experiments centered around a new candidate pool of 12.8B image-text pairs from Common Crawl. Participants in our benchmark design new filtering techniques or curate new data sources and then evaluate their new dataset by running our standardized CLIP training code and testing on 38 downstream test sets. Our benchmark consists of multiple scales, with four candidate pool sizes and associated compute budgets ranging from 12.8M to 12.8B samples seen during training. This multi-scale design facilitates the study of scaling trends and makes the benchmark accessible to researchers with varying resources. Our baseline experiments show that the DataComp workflow is a promising way of improving multimodal datasets. We introduce DataComp-1B, a dataset created by applying a simple filtering algorithm to the 12.8B candidate pool. The resulting 1.4B subset enables training a CLIP ViT-L/14 from scratch to 79.2% zero-shot accuracy on ImageNet. Our new ViT-L/14 model outperforms a larger ViT-g/14 trained on LAION-2B by 0.7 percentage points while requiring 9x less training compute. We also outperform OpenAI’s CLIP ViT-L/14 by 3.7 percentage points, which is trained with the same compute budget as our model. These gains highlight the potential for improving model performance by carefully curating training sets. We view DataComp-1B as only the first step and hope that DataComp paves the way toward the next generation of multimodal datasets.
arxiv情報
| 著者 | Samir Yitzhak Gadre,Gabriel Ilharco,Alex Fang,Jonathan Hayase,Georgios Smyrnis,Thao Nguyen,Ryan Marten,Mitchell Wortsman,Dhruba Ghosh,Jieyu Zhang,Eyal Orgad,Rahim Entezari,Giannis Daras,Sarah Pratt,Vivek Ramanujan,Yonatan Bitton,Kalyani Marathe,Stephen Mussmann,Richard Vencu,Mehdi Cherti,Ranjay Krishna,Pang Wei Koh,Olga Saukh,Alexander Ratner,Shuran Song,Hannaneh Hajishirzi,Ali Farhadi,Romain Beaumont,Sewoong Oh,Alex Dimakis,Jenia Jitsev,Yair Carmon,Vaishaal Shankar,Ludwig Schmidt |
| 発行日 | 2023-05-03 18:06:23+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI