STEM Rebalance: A Novel Approach for Tackling Imbalanced Datasets using SMOTE, Edited Nearest Neighbour, and Mixup

要約

医療画像における不均衡なデータセットは、クラスの比率が歪んでいることと、異常症例が少ないという特徴があります。
このようなデータを使用してトレーニングすると、モデルは通常のケースに高い確率を割り当てる傾向があり、パフォーマンスに偏りが生じます。
SMOTE などの一般的なオーバーサンプリング手法はローカル情報に依存しているため、疎外の問題が発生する可能性があります。
この論文では、2 つのトレーニング サンプルとそれに対応するラベルを組み合わせて、一般的な近傍分布として新しいデータ ポイントを生成する Mixup 拡張を使用する可能性を調査します。
この目的を達成するために、SMOTE-ENN と Mixup をインスタンス レベルで組み合わせた STEM を提案します。
この統合により、少数階級の分布全体を効果的に活用できるようになり、それによって階級間および階級内の両方の不均衡が軽減されます。
私たちは、不均衡なデータセットが蔓延している乳がんの問題に焦点を当てています。
この結果は、STEM の有効性を示しており、マンモグラフィー スクリーニング用デジタル データベースとウィスコンシン乳がん (診断) データセットでそれぞれ 0.96 と 0.99 の AUC 値を達成しています。
さらに、この方法は、機械学習 (ML) 分類器のアンサンブルに適用すると、有望な可能性を示します。

要約(オリジナル)

Imbalanced datasets in medical imaging are characterized by skewed class proportions and scarcity of abnormal cases. When trained using such data, models tend to assign higher probabilities to normal cases, leading to biased performance. Common oversampling techniques such as SMOTE rely on local information and can introduce marginalization issues. This paper investigates the potential of using Mixup augmentation that combines two training examples along with their corresponding labels to generate new data points as a generic vicinal distribution. To this end, we propose STEM, which combines SMOTE-ENN and Mixup at the instance level. This integration enables us to effectively leverage the entire distribution of minority classes, thereby mitigating both between-class and within-class imbalances. We focus on the breast cancer problem, where imbalanced datasets are prevalent. The results demonstrate the effectiveness of STEM, which achieves AUC values of 0.96 and 0.99 in the Digital Database for Screening Mammography and Wisconsin Breast Cancer (Diagnostics) datasets, respectively. Moreover, this method shows promising potential when applied with an ensemble of machine learning (ML) classifiers.

arxiv情報

著者 Yumnah Hasan,Fatemeh Amerehi,Patrick Healy,Conor Ryan
発行日 2023-11-13 17:45:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク