Don’t fear the unlabelled: safe semi-supervised learning via simple debiasing

要約

半教師付き学習(SSL)は、ラベルのないデータを活用してモデルの性能を向上させる効果的な手段である。この領域は過去数年間にかなりの量の注目を集めたが、ほとんどの手法は理論的保証に欠けるという共通の欠点を持つ。我々の出発点は、ほとんどの識別SSL手法が最小化するリスクの推定値が、漸近的にさえも偏っていることに気付くことである。このバイアスは、標準的な統計的学習理論の使用を妨げ、経験的なパフォーマンスを低下させる可能性があります。我々は、このバイアスを除去する簡単な方法を提案する。我々のデビアス手法は、実装が簡単で、ほとんどのディープSSL手法に適用できる。SSL理論が通常必要とするデータ分布に関する強い仮定に頼ることなく、これらの修正手法の信頼性について簡単な理論的保証を提供する。特に、提案した手法の一般化誤差の境界を提供する。また、Pseudo-label法やFixmatchなどの既存のSSL手法のデバイアス版を評価し、デバイアスがより良い較正モデルを提供することにより、様々な設定において古典的なディープSSL手法と競合できることを示している。さらに、一般的なSSL手法の直感を理論的に説明する。

要約(オリジナル)

Semi-supervised learning (SSL) provides an effective means of leveraging unlabelled data to improve a model performance. Even though the domain has received a considerable amount of attention in the past years, most methods present the common drawback of lacking theoretical guarantees. Our starting point is to notice that the estimate of the risk that most discriminative SSL methods minimise is biased, even asymptotically. This bias impedes the use of standard statistical learning theory and can hurt empirical performance. We propose a simple way of removing the bias. Our debiasing approach is straightforward to implement and applicable to most deep SSL methods. We provide simple theoretical guarantees on the trustworthiness of these modified methods, without having to rely on the strong assumptions on the data distribution that SSL theory usually requires. In particular, we provide generalisation error bounds for the proposed methods. We evaluate debiased versions of different existing SSL methods, such as the Pseudo-label method and Fixmatch, and show that debiasing can compete with classic deep SSL techniques in various settings by providing better calibrated models. Additionally, we provide a theoretical explanation of the intuition of the popular SSL methods.

arxiv情報

著者 Hugo Schmutz,Olivier Humbert,Pierre-Alexandre Mattei
発行日 2023-03-03 17:30:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.CO, stat.ME, stat.ML パーマリンク