Boosting Semi-Supervised Learning with Contrastive Complementary Labeling

要約

半教師あり学習 (SSL) は、大量のラベルなしデータを活用して有望な分類器を学習することに大きな成功を収めました。
一般的なアプローチは、信頼性の高い予測を持つラベル付けされていないデータに対してのみ疑似ラベルを生成する疑似ラベル付けです。
信頼性の低いものに関しては、これらの信頼できない疑似ラベルがモデルを誤解させる可能性があるため、既存の方法では単純にそれらを破棄することがよくあります。
それにもかかわらず、信頼性の低い疑似ラベルを持つこれらのデータは、トレーニングプロセスにとって依然として有益である可能性があることを強調しています.
具体的には、予測で確率が最も高いクラスは信頼できませんが、このサンプルが確率が最も低いクラスに属する可能性は非常に低いと想定できます。
このように、これらの相補的なラベル、つまりサンプルが属していないクラスを効果的に活用できれば、これらのデータも非常に有益です。
これに着想を得て、補完的なラベルに基づいて多数の信頼できるネガティブ ペアを構築し、すべてのラベル付けされていないデータを利用するために対照的な学習を採用する、新しい対照的な補完的なラベリング (CCL) メソッドを提案します。
広範な実験により、CCL が既存の方法に加えてパフォーマンスを大幅に向上させることが実証されています。
さらに重要なことに、当社の CCL は、ラベルが少ない設定で特に効果的です。
たとえば、CIFAR-10 では、40 個のラベル付きデータのみで FixMatch よりも 2.43% 向上しています。

要約(オリジナル)

Semi-supervised learning (SSL) has achieved great success in leveraging a large amount of unlabeled data to learn a promising classifier. A popular approach is pseudo-labeling that generates pseudo labels only for those unlabeled data with high-confidence predictions. As for the low-confidence ones, existing methods often simply discard them because these unreliable pseudo labels may mislead the model. Nevertheless, we highlight that these data with low-confidence pseudo labels can be still beneficial to the training process. Specifically, although the class with the highest probability in the prediction is unreliable, we can assume that this sample is very unlikely to belong to the classes with the lowest probabilities. In this way, these data can be also very informative if we can effectively exploit these complementary labels, i.e., the classes that a sample does not belong to. Inspired by this, we propose a novel Contrastive Complementary Labeling (CCL) method that constructs a large number of reliable negative pairs based on the complementary labels and adopts contrastive learning to make use of all the unlabeled data. Extensive experiments demonstrate that CCL significantly improves the performance on top of existing methods. More critically, our CCL is particularly effective under the label-scarce settings. For example, we yield an improvement of 2.43% over FixMatch on CIFAR-10 only with 40 labeled data.

arxiv情報

著者 Qinyi Deng,Yong Guo,Zhibang Yang,Haolin Pan,Jian Chen
発行日 2022-12-13 15:25:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク