DIRECT: Deep Active Learning under Imbalance and Label Noise


ラベルのない野生のデータが豊富にある場合、アクティブ ラーニングはおそらく、問題を根本から解決する最も効果的な手法です。つまり、アノテーション中に、よりバランスのとれた有益なラベル付きサンプルのセットを収集します。
1 次元アクティブ ラーニングへの新たな削減を通じて、当社のアルゴリズム DIRECT は、古典的なアクティブ ラーニングの文献を活用して、バッチ ラベリングやラベル ノイズに対する許容度などの問題に対処できます。
既存のアルゴリズムと比較して、当社のアルゴリズムは、最先端のアクティブ ラーニング アルゴリズムと比較してアノテーション予算の 15\% 以上、ランダム サンプリングと比較してアノテーション予算の 90\% 以上を節約します。


Class imbalance is a prevalent issue in real world machine learning applications, often leading to poor performance in rare and minority classes. With an abundance of wild unlabeled data, active learning is perhaps the most effective technique in solving the problem at its root — collecting a more balanced and informative set of labeled examples during annotation. In this work, we propose a novel algorithm that first identifies the class separation threshold and then annotate the most uncertain examples from the minority classes, close to the separation threshold. Through a novel reduction to one-dimensional active learning, our algorithm DIRECT is able to leverage the classic active learning literature to address issues such as batch labeling and tolerance towards label noise. Compared to existing algorithms, our algorithm saves more than 15\% of the annotation budget compared to state-of-art active learning algorithm and more than 90\% of annotation budget compared to random sampling.


著者 Shyam Nuggehalli,Jifan Zhang,Lalit Jain,Robert Nowak
発行日 2023-12-14 18:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.LG パーマリンク