要約
教師あり学習(SSL)は、ラベルのない大量の学習データから高品質の表現を学習する。データセットが大きくなるにつれて、そのような表現の学習に最も貢献する例を特定することが重要になる。これにより、高品質な表現を学習するために必要なデータ量を減らすことができ、効率的なSSLが可能になります。しかし、SSLにおける事例の価値を定量化することは、未解決の問題であるままであった。本研究では、対比的SSLに最も貢献する例は、他の例と最も類似した拡張を持つ例であることを期待値として証明することで、初めてこの問題に取り組む。また、そのような部分集合に対するSSLの汎化性能について厳密な保証を提供する。経験的に、SSLに最も貢献する部分集合は、教師あり学習に最も貢献しない部分集合であることを発見した(おそらく驚くべきことである)。広範な実験を通じて、CIFAR100、CIFAR10、STL10において、我々のサブセットがランダムサブセットよりも3%以上優れていることを示すことができた。興味深いことに、CIFAR100では20%、STL10では40%の例を、下流タスクのパフォーマンスに影響を与えることなく、安全に除外できることも分かりました。
要約(オリジナル)
Self-supervised learning (SSL) learns high-quality representations from large pools of unlabeled training data. As datasets grow larger, it becomes crucial to identify the examples that contribute the most to learning such representations. This enables efficient SSL by reducing the volume of data required for learning high-quality representations. Nevertheless, quantifying the value of examples for SSL has remained an open question. In this work, we address this for the first time, by proving that examples that contribute the most to contrastive SSL are those that have the most similar augmentations to other examples, in expectation. We provide rigorous guarantees for the generalization performance of SSL on such subsets. Empirically, we discover, perhaps surprisingly, the subsets that contribute the most to SSL are those that contribute the least to supervised learning. Through extensive experiments, we show that our subsets outperform random subsets by more than 3% on CIFAR100, CIFAR10, and STL10. Interestingly, we also find that we can safely exclude 20% of examples from CIFAR100 and 40% from STL10, without affecting downstream task performance.
arxiv情報
著者 | Siddharth Joshi,Baharan Mirzasoleiman |
発行日 | 2023-05-11 16:47:45+00:00 |
arxivサイト | arxiv_id(pdf) |