SeMi: When Imbalanced Semi-Supervised Learning Meets Mining Hard Examples

要約

半教師あり学習 (SSL) では、豊富なラベルなしデータを活用してモデルのパフォーマンスを向上させることができます。
ただし、実際のシナリオではクラスの不均衡なデータ分散が SSL に大きな課題をもたらし、パフォーマンスの低下をもたらします。
既存のクラス不均衡半教師あり学習 (CISSL) 手法は、主にデータセットのバランス調整に重点を置いていますが、パフォーマンスを向上させるためにハード サンプルを使用する可能性を無視しているため、高度なアルゴリズムを使用しても、ラベルなしデータの力を完全に活用することが困難になります。
この問題に対処するために、ハード サンプルのマイニングによる不均衡な半教師あり学習 (SeMi) のパフォーマンスを向上させる方法を提案します。
この方法は、ハード サンプルとイージー サンプルのロジット間のエントロピーの違いを区別することで、ハード サンプルを特定し、ラベルなしデータの有用性を高め、CISSL の不均衡問題に適切に対処します。
さらに、疑似ラベルの信頼性を高めるために、信頼性の高い埋め込みを保存するための信頼性減衰を備えたクラスバランスのとれたメモリ バンクを維持します。
私たちの方法はシンプルですが、効果的であり、既存のアプローチとシームレスに統合されます。
当社は標準的な CISSL ベンチマークで包括的な実験を実行し、当社が提案する SeMi が複数のベンチマークで既存の最先端の手法よりも優れていることを実験的に実証しました。特に逆転シナリオでは、最良の結果はベースライン手法と比較して約 54.8\% の改善を示しています。

要約(オリジナル)

Semi-Supervised Learning (SSL) can leverage abundant unlabeled data to boost model performance. However, the class-imbalanced data distribution in real-world scenarios poses great challenges to SSL, resulting in performance degradation. Existing class-imbalanced semi-supervised learning (CISSL) methods mainly focus on rebalancing datasets but ignore the potential of using hard examples to enhance performance, making it difficult to fully harness the power of unlabeled data even with sophisticated algorithms. To address this issue, we propose a method that enhances the performance of Imbalanced Semi-Supervised Learning by Mining Hard Examples (SeMi). This method distinguishes the entropy differences among logits of hard and easy examples, thereby identifying hard examples and increasing the utility of unlabeled data, better addressing the imbalance problem in CISSL. In addition, we maintain a class-balanced memory bank with confidence decay for storing high-confidence embeddings to enhance the pseudo-labels’ reliability. Although our method is simple, it is effective and seamlessly integrates with existing approaches. We perform comprehensive experiments on standard CISSL benchmarks and experimentally demonstrate that our proposed SeMi outperforms existing state-of-the-art methods on multiple benchmarks, especially in reversed scenarios, where our best result shows approximately a 54.8\% improvement over the baseline methods.

arxiv情報

著者 Yin Wang,Zixuan Wang,Hao Lu,Zhen Qin,Hailiang Zhao,Guanjie Cheng,Ge Su,Li Kuang,Mengchu Zhou,Shuiguang Deng
発行日 2025-01-10 14:35:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T05, cs.CV, I.2.6 パーマリンク