Learning with Noisy Labels through Learnable Weighting and Centroid Similarity

要約

医療診断や自動運転などの分野で蔓延しており、モデルの汎化パフォーマンスを低下させる可能性があるノイズの多いラベルの存在下で機械学習モデルをトレーニングするための新しい方法を紹介します。
深層学習モデルがトレーニングの後期にノイズの多いサンプルに過剰適合する傾向があることを強調した確立された文献に触発され、戦略的アプローチを提案します。
この戦略は、潜在空間内のクラス重心までの距離を利用し、すべてのクラス重心から遠く離れたサンプルの影響を軽減することを目的とした割引メカニズムを組み込んでいます。
そうすることで、ノイズの多いラベルの悪影響を効果的に打ち消します。
私たちのアプローチの基本的な前提は、トレーニングの初期段階でそれぞれのクラス重心から遠くに位置するサンプルはノイズと関連している可能性が高いという仮定です。
私たちの方法論は堅牢な理論原理に基づいており、いくつかのベンチマーク データセットでの広範な実験を通じて経験的に検証されています。
私たちの結果は、私たちの方法が既存の最先端技術を常に上回っており、ノイズのあるラベルの存在下で分類精度の大幅な向上を達成していることを示しています。
私たちが提案する損失関数と補足資料のコードは、https://github.com/wanifarooq/NCOD で入手できます。

要約(オリジナル)

We introduce a novel method for training machine learning models in the presence of noisy labels, which are prevalent in domains such as medical diagnosis and autonomous driving and have the potential to degrade a model’s generalization performance. Inspired by established literature that highlights how deep learning models are prone to overfitting to noisy samples in the later epochs of training, we propose a strategic approach. This strategy leverages the distance to class centroids in the latent space and incorporates a discounting mechanism, aiming to diminish the influence of samples that lie distant from all class centroids. By doing so, we effectively counteract the adverse effects of noisy labels. The foundational premise of our approach is the assumption that samples situated further from their respective class centroid in the initial stages of training are more likely to be associated with noise. Our methodology is grounded in robust theoretical principles and has been validated empirically through extensive experiments on several benchmark datasets. Our results show that our method consistently outperforms the existing state-of-the-art techniques, achieving significant improvements in classification accuracy in the presence of noisy labels. The code for our proposed loss function and supplementary materials is available at https://github.com/wanifarooq/NCOD

arxiv情報

著者 Farooq Ahmad Wani,Maria Sofia Bucarelli,Fabrizio Silvestri
発行日 2024-06-25 14:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク