Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels

要約

通常、ノイズの多いトレーニング セットは、ニューラル ネットワークの一般化と堅牢性の低下につながります。
この論文では、ノイズの多いラベルを使用して学習するための、理論的に保証された新しいクリーンなサンプル選択フレームワークを提案します。
具体的には、ネットワーク機能とワンホット ラベルの間の線形関係をモデル化するために、最初にスケーラブル ペナルティ付き回帰 (SPR) メソッドを提示します。
SPR では、クリーン データは、回帰モデルで解決されたゼロ平均シフト パラメーターによって識別されます。
理論的には、SPR が特定の条件下でクリーンなデータを回復できることを示しています。
一般的なシナリオでは、条件が満たされない場合があります。
また、一部のノイズ データが誤ってクリーン データとして選択されます。
この問題を解決するために、選択されたクリーン データの False-Selection-Rate (FSR) を制御することが証明可能な、Knockoff フィルターを使用したスケーラブルなペナルティ付き回帰 (Knockoffs-SPR) のデータ適応方法を提案します。
効率を改善するために、トレーニングセット全体を並列に解決できる小さな断片に分割する分割アルゴリズムをさらに提示して、フレームワークを大規模なデータセットに拡張できるようにします。
Knockoffs-SPR は、標準的な教師ありトレーニング パイプラインのサンプル選択モジュールと見なすことができますが、さらにそれを半教師ありアルゴリズムと組み合わせて、ラベルなしデータとしてのノイズ データのサポートを活用します。
いくつかのベンチマーク データセットと実世界のノイズの多いデータセットに関する実験結果は、フレームワークの有効性を示し、Knockoffs-SPR の理論的結果を検証します。
コードと事前トレーニング済みのモデルがリリースされます。

要約(オリジナル)

A noisy training set usually leads to the degradation of the generalization and robustness of neural networks. In this paper, we propose a novel theoretically guaranteed clean sample selection framework for learning with noisy labels. Specifically, we first present a Scalable Penalized Regression (SPR) method, to model the linear relation between network features and one-hot labels. In SPR, the clean data are identified by the zero mean-shift parameters solved in the regression model. We theoretically show that SPR can recover clean data under some conditions. Under general scenarios, the conditions may be no longer satisfied; and some noisy data are falsely selected as clean data. To solve this problem, we propose a data-adaptive method for Scalable Penalized Regression with Knockoff filters (Knockoffs-SPR), which is provable to control the False-Selection-Rate (FSR) in the selected clean data. To improve the efficiency, we further present a split algorithm that divides the whole training set into small pieces that can be solved in parallel to make the framework scalable to large datasets. While Knockoffs-SPR can be regarded as a sample selection module for a standard supervised training pipeline, we further combine it with a semi-supervised algorithm to exploit the support of noisy data as unlabeled data. Experimental results on several benchmark datasets and real-world noisy datasets show the effectiveness of our framework and validate the theoretical results of Knockoffs-SPR. Our code and pre-trained models will be released.

arxiv情報

著者 Yikai Wang,Yanwei Fu,Xinwei Sun
発行日 2023-01-02 07:13:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク