要約
半教師あり学習 (SSL) の重要な課題は、限られたラベル付きデータと大量のラベルなしデータを効果的に活用して、モデルの汎化パフォーマンスを向上させる方法です。
このホワイトペーパーでは、最初に、統一されたサンプル重み付け定式化を介して一般的な疑似ラベル付け方法を再検討し、学習を妨げる可能性のあるしきい値を使用した疑似ラベル付けの固有の量と品質のトレードオフの問題を示します。
この目的のために、トレーニング中に疑似ラベルの大量と高品質の両方を維持し、ラベルのないデータを効果的に活用することで、トレードオフを克服する SoftMatch を提案します。
信頼度に基づいてサンプルを重み付けする切り捨てられたガウス関数を導出します。これは、信頼度しきい値のソフト バージョンと見なすことができます。
均一なアライメントアプローチを提案することにより、弱く学習されたクラスの利用をさらに強化します。
実験では、SoftMatch は、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅な改善を示しています。
要約(オリジナル)
The critical challenge of Semi-Supervised Learning (SSL) is how to effectively leverage the limited labeled data and massive unlabeled data to improve the model’s generalization performance. In this paper, we first revisit the popular pseudo-labeling methods via a unified sample weighting formulation and demonstrate the inherent quantity-quality trade-off problem of pseudo-labeling with thresholding, which may prohibit learning. To this end, we propose SoftMatch to overcome the trade-off by maintaining both high quantity and high quality of pseudo-labels during training, effectively exploiting the unlabeled data. We derive a truncated Gaussian function to weight samples based on their confidence, which can be viewed as a soft version of the confidence threshold. We further enhance the utilization of weakly-learned classes by proposing a uniform alignment approach. In experiments, SoftMatch shows substantial improvements across a wide variety of benchmarks, including image, text, and imbalanced classification.
arxiv情報
著者 | Hao Chen,Ran Tao,Yue Fan,Yidong Wang,Jindong Wang,Bernt Schiele,Xing Xie,Bhiksha Raj,Marios Savvides |
発行日 | 2023-03-15 15:49:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google