要約
近年、ノイズの多いラベルを持つデータから優れた分類器を学習することに大きな関心が集まっています。
ノイズの多いラベルから学習するための研究のほとんどは、標準的な損失ベースのパフォーマンス測定に焦点を当てています。
ただし、多くの機械学習の問題では、個々の例での損失の期待値や合計として表現できない非分解パフォーマンス測定値を使用する必要があります。
これらには、たとえば、クラスの不均衡設定における H 平均、Q 平均、G 平均、および情報検索における Micro $F_1$ が含まれます。
この論文では、上記のすべての例を含む、2 つの広範なマルチクラス非分解パフォーマンス測定クラス、つまり単調凸型と線形比率についてノイズのあるラベルから学習するアルゴリズムを設計します。
私たちの研究は、Narasimhan らの Frank-Wolfe および Bisection ベースの手法に基づいています。
(2015年)。
どちらの場合も、広く研究されているクラス条件付きノイズ モデルのファミリーに基づいて、アルゴリズムのノイズ補正バージョンを開発します。
私たちは、アルゴリズムにリグレス (過剰リスク) 限界を設け、ノイズの多いデータでトレーニングされていても、パフォーマンスが全体的に最適なパフォーマンスに収束するという意味でベイズ整合性があることを確立します。
クリーンな (ノイズのない) ディストリビューション。
私たちの実験では、ラベル ノイズの処理におけるアルゴリズムの有効性を実証しています。
要約(オリジナル)
There has been much interest in recent years in learning good classifiers from data with noisy labels. Most work on learning from noisy labels has focused on standard loss-based performance measures. However, many machine learning problems require using non-decomposable performance measures which cannot be expressed as the expectation or sum of a loss on individual examples; these include for example the H-mean, Q-mean and G-mean in class imbalance settings, and the Micro $F_1$ in information retrieval. In this paper, we design algorithms to learn from noisy labels for two broad classes of multiclass non-decomposable performance measures, namely, monotonic convex and ratio-of-linear, which encompass all the above examples. Our work builds on the Frank-Wolfe and Bisection based methods of Narasimhan et al. (2015). In both cases, we develop noise-corrected versions of the algorithms under the widely studied family of class-conditional noise models. We provide regret (excess risk) bounds for our algorithms, establishing that even though they are trained on noisy data, they are Bayes consistent in the sense that their performance converges to the optimal performance w.r.t. the clean (non-noisy) distribution. Our experiments demonstrate the effectiveness of our algorithms in handling label noise.
arxiv情報
著者 | Mingyuan Zhang,Shivani Agarwal |
発行日 | 2024-04-23 22:56:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google