要約
タイトル:データ効率の良い対照的自己教師あり学習:易しい例が最も貢献する
要約:
-SEL(自己教師あり学習)は、ラベルなしの大量のトレーニングデータから高品質の表現を学習します。
-データセットが大きくなるにつれて、学習のために必要なデータの量を減らすことができる、学習に最も貢献する例を特定することが重要になります。
-この論文は、対照的SELに最も貢献する例は、期待値において他の例と最も類似した拡張を持つものであることを証明しました。
-このサブセットに対するSELの汎化性能の厳密な保証を提供します。
-CIFAR100、CIFAR10、およびSTL10で、ランダムなサブセットよりも3%以上優れることを実証します。
-STL10から40%、CIFAR100から20%の例を安全に除外でき、ダウンストリームタスクの性能に影響を与えることがないことがわかりました。
要約(オリジナル)
Self-supervised learning (SSL) learns high-quality representations from large pools of unlabeled training data. As datasets grow larger, it becomes crucial to identify the examples that contribute the most to learning such representations. This enables efficient SSL by reducing the volume of data required for learning high-quality representations. Nevertheless, quantifying the value of examples for SSL has remained an open question. In this work, we address this for the first time, by proving that examples that contribute the most to contrastive SSL are those that have the most similar augmentations to other examples, in expectation. We provide rigorous guarantees for the generalization performance of SSL on such subsets. Empirically, we discover, perhaps surprisingly, the subsets that contribute the most to SSL are those that contribute the least to supervised learning. Through extensive experiments, we show that our subsets outperform random subsets by more than 3% on CIFAR100, CIFAR10, and STL10. Interestingly, we also find that we can safely exclude 20% of examples from CIFAR100 and 40% from STL10, without affecting downstream task performance.
arxiv情報
著者 | Siddharth Joshi,Baharan Mirzasoleiman |
発行日 | 2023-04-26 03:04:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI