要約
ノイズの多いラベルとも呼ばれる誤って注釈付きのサンプルは、ディープラーニングモデルのパフォーマンスを大きく害する可能性があります。
騒々しいラベルを使用して学習するための2つの主なアプローチは、グローバルノイズの推定とデータフィルタリングです。
グローバルノイズ推定は、ノイズ遷移マトリックスを使用してデータセット全体のノイズに近似しますが、正しいラベルを不必要に調整し、ローカルの改善の余地を残すことができます。
一方、データフィルタリングは、潜在的にノイズの多いサンプルを破棄しますが、貴重なデータを失うリスクがあります。
私たちの方法は、損失分布に基づいて潜在的にノイズの多いサンプルを識別します。
次に、選択プロセスを適用してノイズの多いサンプルを分離し、ノイズトランジションマトリックスを学習して、クリーンデータを影響を受けないままにして、トレーニングプロセスを改善します。
私たちのアプローチは、ノイズの多いサンプルから貴重な情報を保存し、修正プロセスを改良することにより、堅牢な学習とモデルパフォーマンスを強化します。
標準の画像データセット(MNIST、CIFAR-10、およびCIFAR-100)および生物学的SCRNA-SEQ細胞型アノテーションデータセットに方法を適用しました。
従来の方法と比較して、モデルの精度と堅牢性の大幅な改善が観察されました。
要約(オリジナル)
Falsely annotated samples, also known as noisy labels, can significantly harm the performance of deep learning models. Two main approaches for learning with noisy labels are global noise estimation and data filtering. Global noise estimation approximates the noise across the entire dataset using a noise transition matrix, but it can unnecessarily adjust correct labels, leaving room for local improvements. Data filtering, on the other hand, discards potentially noisy samples but risks losing valuable data. Our method identifies potentially noisy samples based on their loss distribution. We then apply a selection process to separate noisy and clean samples and learn a noise transition matrix to correct the loss for noisy samples while leaving the clean data unaffected, thereby improving the training process. Our approach ensures robust learning and enhanced model performance by preserving valuable information from noisy samples and refining the correction process. We applied our method to standard image datasets (MNIST, CIFAR-10, and CIFAR-100) and a biological scRNA-seq cell-type annotation dataset. We observed a significant improvement in model accuracy and robustness compared to traditional methods.
arxiv情報
著者 | Yuval Grinberg,Nimrod Harel,Jacob Goldberger,Ofir Lindenbaum |
発行日 | 2025-05-19 16:49:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google