Can We Treat Noisy Labels as Accurate?

要約

ノイズの多いラベルは、特にあいまいなインスタンスの特徴により、機械学習モデルの精度と一般化を著しく妨げます。
遷移行列を使用する手法など、ノイズの多いラベルを直接修正しようとする従来の手法では、問題に固有の複雑さに十分に対処できないことがよくあります。
このペーパーでは、ノイズの多いラベルからの学習における革新的なパラダイム シフトである EchoAlign を紹介します。
EchoAlign は、ラベルの修正に焦点を当てるのではなく、ノイズのあるラベル ($\tilde{Y}$) を正確なものとして扱い、対応するインスタンスの特徴 ($X$) を変更して、$\tilde{Y}$ との位置合わせを改善します。
EchoAlign のコア コンポーネントは次のとおりです。 (1) EchoMod: 制御可能な生成モデルを使用する EchoMod は、インスタンスの固有の特性を維持し、ノイズの多いラベルとの位置合わせを確保しながら、インスタンスを正確に変更します。
(2) EchoSelect: インスタンスの変更により、必然的にトレーニング セットとテスト セット間の分布の変化が生じます。
EchoSelect は、これらの変化を軽減するために、クリーンな元のインスタンスの大部分を維持します。
元のインスタンスと変更されたインスタンスの間の明確な特徴の類似性分布を、正確なサンプル選択のための堅牢なツールとして活用します。
この統合されたアプローチにより、顕著な結果が得られます。
インスタンス依存ノイズが 30% ある環境では、99% の選択精度であっても、EchoSelect は以前の最良の方法と比較してほぼ 2 倍のサンプル数を保持します。
特に、3 つのデータセットにおいて、EchoAlign は以前の最先端技術を大幅に改善して上回っています。

要約(オリジナル)

Noisy labels significantly hinder the accuracy and generalization of machine learning models, particularly due to ambiguous instance features. Traditional techniques that attempt to correct noisy labels directly, such as those using transition matrices, often fail to address the inherent complexities of the problem sufficiently. In this paper, we introduce EchoAlign, a transformative paradigm shift in learning from noisy labels. Instead of focusing on label correction, EchoAlign treats noisy labels ($\tilde{Y}$) as accurate and modifies corresponding instance features ($X$) to achieve better alignment with $\tilde{Y}$. EchoAlign’s core components are (1) EchoMod: Employing controllable generative models, EchoMod precisely modifies instances while maintaining their intrinsic characteristics and ensuring alignment with the noisy labels. (2) EchoSelect: Instance modification inevitably introduces distribution shifts between training and test sets. EchoSelect maintains a significant portion of clean original instances to mitigate these shifts. It leverages the distinct feature similarity distributions between original and modified instances as a robust tool for accurate sample selection. This integrated approach yields remarkable results. In environments with 30% instance-dependent noise, even at 99% selection accuracy, EchoSelect retains nearly twice the number of samples compared to the previous best method. Notably, on three datasets, EchoAlign surpasses previous state-of-the-art techniques with a substantial improvement.

arxiv情報

著者 Yuxiang Zheng,Zhongyi Han,Yilong Yin,Xin Gao,Tongliang Liu
発行日 2024-05-21 17:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク