On Pretraining Data Diversity for Self-Supervised Learning

要約

私たちは、一意のサンプルの数によって特徴付けられる、より多様なデータセットを使用したトレーニングが、固定の計算予算の下で自己教師あり学習 (SSL) のパフォーマンスに及ぼす影響を調査します。
私たちの調査結果は、下流データへの配信距離が最小限である場合に限りますが、事前トレーニング データの多様性が増加すると SSL パフォーマンスが向上することを一貫して示しています。
特に、Web クローリングや拡散生成データなどの方法を通じて、非常に大規模な事前トレーニング データの多様性が達成されたとしても、分布の変化は依然として課題です。
私たちの実験は、ImageNet や YFCC100M などの大規模なデータセットを使用した 7 つの SSL メソッドを使用した包括的なもので、GPU 日で 200 日を超えます。
コードとトレーニング済みモデルは https://github.com/hammoudhasan/DiversitySSL で入手できます。

要約(オリジナル)

We explore the impact of training with more diverse datasets, characterized by the number of unique samples, on the performance of self-supervised learning (SSL) under a fixed computational budget. Our findings consistently demonstrate that increasing pretraining data diversity enhances SSL performance, albeit only when the distribution distance to the downstream data is minimal. Notably, even with an exceptionally large pretraining data diversity achieved through methods like web crawling or diffusion-generated data, among other ways, the distribution shift remains a challenge. Our experiments are comprehensive with seven SSL methods using large-scale datasets such as ImageNet and YFCC100M amounting to over 200 GPU days. Code and trained models will be available at https://github.com/hammoudhasan/DiversitySSL .

arxiv情報

著者 Hasan Abed Al Kader Hammoud,Tuhin Das,Fabio Pizzati,Philip Torr,Adel Bibi,Bernard Ghanem
発行日 2024-03-20 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク