AuxMix: Semi-Supervised Learning with Unconstrained Unlabeled Data

要約

半教師あり学習(SSL)は、ラベル付きデータが不足しているがラベルなしデータが豊富な場合に大きな進歩を遂げました。
重要なことに、最近の研究では、そのようなラベルのないデータは、ラベルの付いたデータと同じ分布から抽出されると想定しています。
この作業では、ラベル付きセットと同じクラス分布を必ずしも持たないラベルなし補助データが存在する場合、最先端のSSLアルゴリズムのパフォーマンスが低下することを示します。
この問題をAuxiliary-SSLと呼び、AuxMixを提案します。これは、自己監視学習タスクを活用して一般的な機能を学習し、ラベル付けされたセットと意味的に類似していない補助データをマスクするアルゴリズムです。
また、異なる補助サンプルの予測エントロピーを最大化することにより、学習を正規化することを提案します。
4kのラベル付きサンプルを使用してCIFAR10データセットでトレーニングし、すべてのラベルなしデータをTiny-ImageNetデータセットから取得すると、ResNet-50モデルの既存のベースラインよりも5%向上することがわかります。
いくつかのデータセットで競争力のある結果を報告し、アブレーション研究を実施します。

要約(オリジナル)

Semi-supervised learning (SSL) has seen great strides when labeled data is scarce but unlabeled data is abundant. Critically, most recent work assume that such unlabeled data is drawn from the same distribution as the labeled data. In this work, we show that state-of-the-art SSL algorithms suffer a degradation in performance in the presence of unlabeled auxiliary data that does not necessarily possess the same class distribution as the labeled set. We term this problem as Auxiliary-SSL and propose AuxMix, an algorithm that leverages self-supervised learning tasks to learn generic features in order to mask auxiliary data that are not semantically similar to the labeled set. We also propose to regularize learning by maximizing the predicted entropy for dissimilar auxiliary samples. We show an improvement of 5% over existing baselines on a ResNet-50 model when trained on CIFAR10 dataset with 4k labeled samples and all unlabeled data is drawn from the Tiny-ImageNet dataset. We report competitive results on several datasets and conduct ablation studies.

arxiv情報

著者 Amin Banitalebi-Dehkordi,Pratik Gujjar,Yong Zhang
発行日 2022-06-14 16:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク