要約
特に大規模なデータセットのデータ注釈は必然的に不完全である可能性があるため、ノイズの多いラベルを使用した学習は、多くの研究関心を呼び起こしました。
最近のアプローチは、トレーニングサンプルをクリーンでノイズの多いセットに分割することにより、半教師あり学習の問題に頼っています。
ただし、このパラダイムは、ラベルノイズが大きい場合に大幅に劣化する傾向があります。これは、クリーンなサンプルの数が少なすぎるため、従来の方法ではうまく機能しないためです。
この論文では、極端なノイズの下での学習に明示的に取り組むために、LC-Boosterと呼ばれる新しいフレームワークを紹介します。
LC-Boosterの核となるアイデアは、ラベル補正をサンプル選択に組み込むことです。これにより、信頼性の高いラベル補正により、より精製されたサンプルをトレーニングに利用できるため、確証バイアスが軽減されます。
実験によると、LC-Boosterは、CIFAR-10、CIFAR-100、Clothing1M、WebVisionなど、いくつかのノイズの多いラベルのベンチマークで最先端の結果を向上させています。
驚くべきことに、極端な90 \%のノイズ比の下で、LC-BoosterはCIFAR-10およびCIFAR-100で92.9 \%および48.4 \%の精度を達成し、最先端の方法を大幅に上回っています。
要約(オリジナル)
Learning with noisy labels has aroused much research interest since data annotations, especially for large-scale datasets, may be inevitably imperfect. Recent approaches resort to a semi-supervised learning problem by dividing training samples into clean and noisy sets. This paradigm, however, is prone to significant degeneration under heavy label noise, as the number of clean samples is too small for conventional methods to behave well. In this paper, we introduce a novel framework, termed as LC-Booster, to explicitly tackle learning under extreme noise. The core idea of LC-Booster is to incorporate label correction into the sample selection, so that more purified samples, through the reliable label correction, can be utilized for training, thereby alleviating the confirmation bias. Experiments show that LC-Booster advances state-of-the-art results on several noisy-label benchmarks, including CIFAR-10, CIFAR-100, Clothing1M and WebVision. Remarkably, under the extreme 90\% noise ratio, LC-Booster achieves 92.9\% and 48.4\% accuracy on CIFAR-10 and CIFAR-100, surpassing state-of-the-art methods by a large margin.
arxiv情報
著者 | Kai Wang,Xiangyu Peng,Shuo Yang,Jianfei Yang,Zheng Zhu,Xinchao Wang,Yang You |
発行日 | 2022-07-19 17:08:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google