要約
大規模な Web スケール データセットの利用により、機械学習モデルのパフォーマンスは前例のない向上につながりましたが、その一方で、トレーニングには途方もないコンピューティング要件が課せられました。
トレーニングとデータの効率を向上させるために、CLIP スタイルのモデルをトレーニングするための大規模なマルチモーダル データセットのプルーニングの限界を押し広げます。
ImageNet における現在最も効果的なプルーニング手法は、データ サンプルをその埋め込みに応じて個別の概念にクラスター化し、最もプロトタイプ的なサンプルを除去します。
このアプローチを LAION に合わせて拡張し、枝刈り率がコンセプト固有であり、コンセプトの複雑さに適応する必要があることに注意して改善します。
シンプルで直観的な複雑さの尺度を使用することで、トレーニング コストを通常のトレーニングの 4 分の 1 に削減できます。
LAION データセットからフィルタリングすることにより、より小規模な高品質データ セットでトレーニングを行うと、トレーニング コストが大幅に低くなり、パフォーマンスが向上することがわかりました。
より具体的には、ImageNet のゼロショット精度に関して、LAION でトレーニングされた OpenCLIP-ViT-B32 モデルを 1.1p.p 上回る性能を発揮できます。
データとトレーニング コンピューティングの 27.7% のみを使用します。
トレーニング コストが大幅に削減されたにもかかわらず、ImageNet dist にも改善が見られます。
シフト、検索タスク、および VTAB。
DataComp Medium ベンチマークでは、38 の評価タスクで新しい最先端の ImageNet ゼロショット精度と競争力のある平均ゼロショット精度を達成しました。
要約(オリジナル)
Utilizing massive web-scale datasets has led to unprecedented performance gains in machine learning models, but also imposes outlandish compute requirements for their training. In order to improve training and data efficiency, we here push the limits of pruning large-scale multimodal datasets for training CLIP-style models. Today’s most effective pruning method on ImageNet clusters data samples into separate concepts according to their embedding and prunes away the most prototypical samples. We scale this approach to LAION and improve it by noting that the pruning rate should be concept-specific and adapted to the complexity of the concept. Using a simple and intuitive complexity measure, we are able to reduce the training cost to a quarter of regular training. By filtering from the LAION dataset, we find that training on a smaller set of high-quality data can lead to higher performance with significantly lower training costs. More specifically, we are able to outperform the LAION-trained OpenCLIP-ViT-B32 model on ImageNet zero-shot accuracy by 1.1p.p. while only using 27.7% of the data and training compute. Despite a strong reduction in training cost, we also see improvements on ImageNet dist. shifts, retrieval tasks and VTAB. On the DataComp Medium benchmark, we achieve a new state-of-the-art ImageNet zero-shot accuracy and a competitive average zero-shot accuracy on 38 evaluation tasks.
arxiv情報
著者 | Amro Abbas,Evgenia Rusak,Kushal Tirumala,Wieland Brendel,Kamalika Chaudhuri,Ari S. Morcos |
発行日 | 2024-01-09 14:32:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google