An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised Learning

要約

半教師あり学習 (SSL) は、ラベルなしデータを活用してモデルのパフォーマンスを向上させる点で大きな期待を集めています。
標準の SSL は均一なデータ分布を前提としていますが、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分布が発生する、不均衡 SSL と呼ばれる、より現実的で難しい設定を検討します。
この課題に取り組む既存の取り組みはありますが、クラスの不均衡を十分かつ効果的に削減できないため、深刻な不均衡に直面するとパフォーマンスが低下します。
この論文では、最も頻度の高いクラスからのクラス分布の違いに応じて、ラベル付きデータを擬似ラベルで補完するだけでデータの不均衡に取り組む、単純だが見落とされているベースライン — SimiS — を研究します。
このような単純なベースラインは、階級の不均衡を軽減するのに非常に効果的であることがわかります。
これは、既存の方法を大幅に上回り、たとえば、CIFAR100-LT、FOOD101-LT、および ImageNet127 での以前の SOTA と比較して、それぞれ 12.8%、13.6%、および 16.7% 優れています。
不均衡の減少により、SimiS の収束が速くなり、擬似ラベルの精度が向上します。
私たちの方法はシンプルであるため、他の再バランス手法と組み合わせてパフォーマンスをさらに向上させることもできます。
さらに、私たちの方法は広範囲のデータ分布に対して優れた堅牢性を示しており、実際には大きな可能性を秘めています。
コードは公開される予定です。

要約(オリジナル)

Semi-supervised learning (SSL) has shown great promise in leveraging unlabeled data to improve model performance. While standard SSL assumes uniform data distribution, we consider a more realistic and challenging setting called imbalanced SSL, where imbalanced class distributions occur in both labeled and unlabeled data. Although there are existing endeavors to tackle this challenge, their performance degenerates when facing severe imbalance since they can not reduce the class imbalance sufficiently and effectively. In this paper, we study a simple yet overlooked baseline — SimiS — which tackles data imbalance by simply supplementing labeled data with pseudo-labels, according to the difference in class distribution from the most frequent class. Such a simple baseline turns out to be highly effective in reducing class imbalance. It outperforms existing methods by a significant margin, e.g., 12.8%, 13.6%, and 16.7% over previous SOTA on CIFAR100-LT, FOOD101-LT, and ImageNet127 respectively. The reduced imbalance results in faster convergence and better pseudo-label accuracy of SimiS. The simplicity of our method also makes it possible to be combined with other re-balancing techniques to improve the performance further. Moreover, our method shows great robustness to a wide range of data distributions, which holds enormous potential in practice. Code will be publicly available.

arxiv情報

著者 Hao Chen,Yue Fan,Yidong Wang,Jindong Wang,Bernt Schiele,Xing Xie,Marios Savvides,Bhiksha Raj
発行日 2024-01-18 14:40:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク