Is your noise correction noisy? PLS: Robustness to label noise with two stage detection

要約

Web からのキュレーションされていないデータセットで正確なニューラル ネットワークをトレーニングできる堅牢なアルゴリズムを設計することは、時間のかかる人的作業の必要性を減らすため、多くの研究の対象となっています。
これまでの多くの研究貢献の焦点は、さまざまな種類のラベル ノイズの検出にありました。
ただし、この論文では、ノイズの多いサンプルが検出されたら、その修正精度を改善することを提案しています。
多くの最先端の貢献では、半教師付きの方法で修正された疑似ラベルを推測する前に、ノイズの多いサンプルが検出される 2 段階のアプローチが採用されています。
推測された疑似ラベルは、ラベルの推測が正しい可能性が高いことを保証せずに、監視対象の目的で使用されます。
これは確証バイアスにつながる可能性があり、ノイズの堅牢性が低下します。
ここでは、疑似損失を提案します。これは、ノイズの多いサンプルの疑似ラベルの正確性と強く相関することがわかっている単純なメトリックです。
疑似損失を使用して、トレーニング全体で自信のない疑似ラベルの重みを動的に下げて、確認バイアスを回避し、ネットワークの精度を向上させます。
さらに、自信を持って修正されたサンプルのクラス境界 (教師あり) と自信不足のラベル修正の教師なし表現の間の補間された目的でロバストな表現を学習する信頼ガイド付きの対照的な目的を使用することを提案します。
実験では、分布内ノイズと分布外ノイズ、および 2 つの現実世界の Web ノイズで合成的に破損した精選されたデータを含む、さまざまなベンチマーク データセットに対する Pseudo-Loss Selection (PLS) アルゴリズムの最先端のパフォーマンスが実証されています。
データセット。
私たちの実験は完全に再現可能です [github 近日公開]

要約(オリジナル)

Designing robust algorithms capable of training accurate neural networks on uncurated datasets from the web has been the subject of much research as it reduces the need for time consuming human labor. The focus of many previous research contributions has been on the detection of different types of label noise; however, this paper proposes to improve the correction accuracy of noisy samples once they have been detected. In many state-of-the-art contributions, a two phase approach is adopted where the noisy samples are detected before guessing a corrected pseudo-label in a semi-supervised fashion. The guessed pseudo-labels are then used in the supervised objective without ensuring that the label guess is likely to be correct. This can lead to confirmation bias, which reduces the noise robustness. Here we propose the pseudo-loss, a simple metric that we find to be strongly correlated with pseudo-label correctness on noisy samples. Using the pseudo-loss, we dynamically down weight under-confident pseudo-labels throughout training to avoid confirmation bias and improve the network accuracy. We additionally propose to use a confidence guided contrastive objective that learns robust representation on an interpolated objective between class bound (supervised) for confidently corrected samples and unsupervised representation for under-confident label corrections. Experiments demonstrate the state-of-the-art performance of our Pseudo-Loss Selection (PLS) algorithm on a variety of benchmark datasets including curated data synthetically corrupted with in-distribution and out-of-distribution noise, and two real world web noise datasets. Our experiments are fully reproducible [github coming soon]

arxiv情報

著者 Paul Albert,Eric Arazo,Tarun Kirshna,Noel E. O’Connor,Kevin McGuinness
発行日 2022-10-10 11:32:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク