Identifying Hard Noise in Long-Tailed Sample Distribution

要約

タイトル:ロングテールのサンプル分布からハードノイズを識別する

要約:
– 一般的なノイズ除去方法は、全てのサンプルが独立かつ同一分布に従っているという仮定に依存する。そのため、ノイズによって乱された分類器は訓練データの外れ値としてノイズを容易に識別できる。しかしながら、大規模データでは不均衡な長いテールを持つデータが必然的に現れ、このような仮定は現実的ではない。不均衡な訓練データは、以前は「簡単な」ノイズであった尾部クラスの分類器をより差別的でなくし、「簡単」なノイズもクリーンな尾部サンプルと同様の外れ値となり、「ハード」なノイズとなる。これをNoisy Long-Tailed Classification (NLT)として識別する。ほとんどのノイズ除去方法は、ハードノイズを識別できず、提案された3つのNLTベンチマーク(ImageNet-NLT、Animal10-NLT、Food101-NLT)で大幅な性能低下を引き起こすことが分かった。
– このため、Hard-to-Easy(H2E)と呼ばれる反復的なノイズ学習フレームワークを設計する。ブートストラップの哲学は、まずクラスとコンテキスト分布の変更に対して不変なノイズ識別器を学び、ハードノイズを「簡単な」ノイズに変換して除去することで、不変性を改善することである。実験結果は、H2Eが従来のバランスの取れた設定において安定した性能を維持しつつ、長いテールの設定で最先端のノイズ除去方法およびその削除を上回ることを示している。データセットとコードは、 https://github.com/yxymessi/H2E-Frameworkで利用可能である。

要約(オリジナル)

Conventional de-noising methods rely on the assumption that all samples are independent and identically distributed, so the resultant classifier, though disturbed by noise, can still easily identify the noises as the outliers of training distribution. However, the assumption is unrealistic in large-scale data that is inevitably long-tailed. Such imbalanced training data makes a classifier less discriminative for the tail classes, whose previously ‘easy’ noises are now turned into ‘hard’ ones — they are almost as outliers as the clean tail samples. We introduce this new challenge as Noisy Long-Tailed Classification (NLT). Not surprisingly, we find that most de-noising methods fail to identify the hard noises, resulting in significant performance drop on the three proposed NLT benchmarks: ImageNet-NLT, Animal10-NLT, and Food101-NLT. To this end, we design an iterative noisy learning framework called Hard-to-Easy (H2E). Our bootstrapping philosophy is to first learn a classifier as noise identifier invariant to the class and context distributional changes, reducing ‘hard’ noises to ‘easy’ ones, whose removal further improves the invariance. Experimental results show that our H2E outperforms state-of-the-art de-noising methods and their ablations on long-tailed settings while maintaining a stable performance on the conventional balanced settings. Datasets and codes are available at https://github.com/yxymessi/H2E-Framework

arxiv情報

著者 Xuanyu Yi,Kaihua Tang,Xian-Sheng Hua,Joo-Hwee Lim,Hanwang Zhang
発行日 2023-03-31 07:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク