Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels

要約

通常、ノイズの多い学習セットはニューラルネットワークの汎化性と頑健性の劣化につながる。本論文では、ノイズの多いラベルを用いた学習のために、理論的に保証された新しいクリーンサンプル選択の枠組みを提案する。具体的には、まず、ネットワークの特徴とワンホットラベルの間の線形関係をモデル化するために、スケーラブル・ペナルティド・レグレッション(SPR)手法を提示する。SPRでは、回帰モデルで解かれるゼロ平均シフトパラメータによって、クリーンデータを同定する。我々は、SPRがある条件下で清浄なデータを復元できることを理論的に示す。しかし、一般的なシナリオでは、この条件が満たされなくなり、ノイズの多いデータが誤ってクリーンデータとして選択される可能性がある。この問題を解決するために、我々はノックオフフィルタを用いたスケーラブル・ペナルティド・リグレッション(Knockoffs-SPR)のデータ適応法を提案し、選択されたクリーンデータにおける誤選択率(FSR)を制御することが可能であることを証明する。さらに、効率を向上させるために、訓練セット全体を並列に解ける小片に分割する分割アルゴリズムを提示し、このフレームワークを大規模データセットにスケーラブルに対応させる。Knockoffs-SPRは標準的な教師付き学習パイプラインのサンプル選択モジュールとみなすことができるが、我々はさらに半教師付きアルゴリズムと組み合わせ、ラベルなしデータとしてのノイズデータの支持を利用する。いくつかのベンチマークデータセットと実世界のノイズデータセットに対する実験結果は、我々のフレームワークの有効性を示し、Knockoffs-SPRの理論結果を検証するものである。我々のコードと事前学習済みモデルは公開される予定である。

要約(オリジナル)

A noisy training set usually leads to the degradation of the generalization and robustness of neural networks. In this paper, we propose a novel theoretically guaranteed clean sample selection framework for learning with noisy labels. Specifically, we first present a Scalable Penalized Regression (SPR) method, to model the linear relation between network features and one-hot labels. In SPR, the clean data are identified by the zero mean-shift parameters solved in the regression model. We theoretically show that SPR can recover clean data under some conditions. Under general scenarios, the conditions may be no longer satisfied; and some noisy data are falsely selected as clean data. To solve this problem, we propose a data-adaptive method for Scalable Penalized Regression with Knockoff filters (Knockoffs-SPR), which is provable to control the False-Selection-Rate (FSR) in the selected clean data. To improve the efficiency, we further present a split algorithm that divides the whole training set into small pieces that can be solved in parallel to make the framework scalable to large datasets. While Knockoffs-SPR can be regarded as a sample selection module for a standard supervised training pipeline, we further combine it with a semi-supervised algorithm to exploit the support of noisy data as unlabeled data. Experimental results on several benchmark datasets and real-world noisy datasets show the effectiveness of our framework and validate the theoretical results of Knockoffs-SPR. Our code and pre-trained models will be released.

arxiv情報

著者 Yikai Wang,Yanwei Fu,Xinwei Sun
発行日 2023-01-03 02:42:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク