要約
ラベルノイズとは、人為的ミスや収集の欠陥によって引き起こされるデータセット内の誤ったラベルのことで、実世界のアプリケーションでは一般的であり、モデルの精度を著しく低下させる可能性がある。本レポートでは、ノイズの遷移行列を推定し、ラベルノイズに頑健な深層学習分類器を構築する方法を探る。遷移行列が既知の場合、遷移行列を用いてラベルノイズの影響を補正するために、前方補正法と重要度再重み付け法を適用する。遷移行列が未知または不正確な場合は、アンカーポイント仮定とT-Revision系列法を用いてノイズ行列を推定または補正する。本研究では、安定性と頑健性を高めるために、T-Revision-AlphaとT-Revision-Softmaxを開発し、T-Revision法をさらに改良した。さらに、クロスエントロピー損失関数に基づく2つのベースライン分類器、多層パーセプトロン(MLP)とResNet-18を設計し実装した。既知のノイズ遷移行列を持つFashionMINISTデータセットを用いて、クリーンラベルの予測と遷移行列の推定におけるこれらの手法の性能を比較した。ノイズ遷移行列が未知のCIFAR-10データセットについては、ノイズ行列を推定し、クリーンラベルを予測する手法の能力を評価した。
要約(オリジナル)
Label noise refers to incorrect labels in a dataset caused by human errors or collection defects, which is common in real-world applications and can significantly reduce the accuracy of models. This report explores how to estimate noise transition matrices and construct deep learning classifiers that are robust against label noise. In cases where the transition matrix is known, we apply forward correction and importance reweighting methods to correct the impact of label noise using the transition matrix. When the transition matrix is unknown or inaccurate, we use the anchor point assumption and T-Revision series methods to estimate or correct the noise matrix. In this study, we further improved the T-Revision method by developing T-Revision-Alpha and T-Revision-Softmax to enhance stability and robustness. Additionally, we designed and implemented two baseline classifiers, a Multi-Layer Perceptron (MLP) and ResNet-18, based on the cross-entropy loss function. We compared the performance of these methods on predicting clean labels and estimating transition matrices using the FashionMINIST dataset with known noise transition matrices. For the CIFAR-10 dataset, where the noise transition matrix is unknown, we estimated the noise matrix and evaluated the ability of the methods to predict clean labels.
arxiv情報
著者 | Haixu Liu,Zerui Tao,Naihui Zhang,Sixing Liu |
発行日 | 2025-01-02 18:27:30+00:00 |
arxivサイト | arxiv_id(pdf) |