An empirical evaluation of imbalanced data strategies from a practitioner’s point of view


このペーパーでは、不均衡なデータを軽減するための 6 つの戦略 (オーバーサンプリング、アンダーサンプリング、アンサンブル手法、特殊なアルゴリズム、クラスの重み調整、およびベースラインと呼ばれる軽減なしのアプローチ) を評価します。
これらの戦略は、不均衡率が 3 ~ 120 の範囲にある 58 の実生活バイナリ不均衡データセットでテストされました。8 つの異なるアルゴリズムにわたって、10 のアンダーサンプリング アルゴリズム、5 つのオーバーサンプリング アルゴリズム、2 つのアンサンブル手法、および 3 つの特殊なアルゴリズムの比較分析を実施しました。
パフォーマンス指標: 精度、ROC 曲線下面積 (AUC)、バランス精度、F1 測定値、G 平均、マシューの相関係数、精度、再現率。
さらに、実際のデータから派生した変更されたデータセットに対する 6 つの戦略を、低い (3) と高い (100 または 300) の不均衡率 (IR) の両方で評価しました。


This paper evaluates six strategies for mitigating imbalanced data: oversampling, undersampling, ensemble methods, specialized algorithms, class weight adjustments, and a no-mitigation approach referred to as the baseline. These strategies were tested on 58 real-life binary imbalanced datasets with imbalance rates ranging from 3 to 120. We conducted a comparative analysis of 10 under-sampling algorithms, 5 over-sampling algorithms, 2 ensemble methods, and 3 specialized algorithms across eight different performance metrics: accuracy, area under the ROC curve (AUC), balanced accuracy, F1-measure, G-mean, Matthew’s correlation coefficient, precision, and recall. Additionally, we assessed the six strategies on altered datasets, derived from real-life data, with both low (3) and high (100 or 300) imbalance ratios (IR). The principal finding indicates that the effectiveness of each strategy significantly varies depending on the metric used. The paper also examines a selection of newer algorithms within the categories of specialized algorithms, oversampling, and ensemble methods. The findings suggest that the current hierarchy of best-performing strategies for each metric is unlikely to change with the introduction of newer algorithms.


著者 Jacques Wainer
発行日 2023-11-10 15:54:40+00:00
カテゴリー: cs.LG, stat.ML