要約
ラベル ノイズは大規模な現実世界のデータセットでよく見られ、その存在はディープ ニューラル ネットワークのトレーニング プロセスに悪影響を及ぼします。
この問題に対処するトレーニング戦略に焦点を当てた研究はいくつかありますが、ディープ ニューラル ネットワークをトレーニングするための設計上の選択肢としてデータ拡張の影響を評価した研究はほとんどありません。
この研究では、さまざまなデータ拡張を使用したときのモデルの堅牢性と、ノイズのあるラベルの存在下でのトレーニングでの改善を分析します。
データセット MNist、CIFAR-10、CIFAR-100、および実世界データセット Clothing1M に対して、さまざまなレベルの合成ノイズを使用して、最先端および古典的なデータ拡張戦略を評価します。
精度メトリクスを使用してメソッドを評価します。
結果は、データ拡張を適切に選択すると、ラベル ノイズに対するモデルの堅牢性が大幅に向上し、拡張なしのベースラインと比較して相対的に最高のテスト精度が最大 177.84% 増加し、データ拡張を使用した場合は絶対値で最大 6% 増加することが示されています。
最先端の DivideMix トレーニング戦略。
要約(オリジナル)
Label noise is common in large real-world datasets, and its presence harms the training process of deep neural networks. Although several works have focused on the training strategies to address this problem, there are few studies that evaluate the impact of data augmentation as a design choice for training deep neural networks. In this work, we analyse the model robustness when using different data augmentations and their improvement on the training with the presence of noisy labels. We evaluate state-of-the-art and classical data augmentation strategies with different levels of synthetic noise for the datasets MNist, CIFAR-10, CIFAR-100, and the real-world dataset Clothing1M. We evaluate the methods using the accuracy metric. Results show that the appropriate selection of data augmentation can drastically improve the model robustness to label noise, increasing up to 177.84% of relative best test accuracy compared to the baseline with no augmentation, and an increase of up to 6% in absolute value with the state-of-the-art DivideMix training strategy.
arxiv情報
著者 | Emeson Santana,Gustavo Carneiro,Filipe R. Cordeiro |
発行日 | 2023-08-07 11:36:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google