要約
このペーパーでは、不均衡なデータを軽減するための 6 つの戦略 (オーバーサンプリング、アンダーサンプリング、アンサンブル手法、特殊なアルゴリズム、クラスの重み調整、およびベースラインと呼ばれる軽減なしのアプローチ) を評価します。
これらの戦略は、不均衡率が 3 ~ 120 の範囲にある 58 の実生活バイナリ不均衡データセットでテストされました。8 つの異なるアルゴリズムにわたって、10 のアンダーサンプリング アルゴリズム、5 つのオーバーサンプリング アルゴリズム、2 つのアンサンブル手法、および 3 つの特殊なアルゴリズムの比較分析を実施しました。
パフォーマンス指標: 精度、ROC 曲線下面積 (AUC)、バランス精度、F1 測定値、G 平均、マシューの相関係数、精度、再現率。
さらに、実際のデータから派生した変更されたデータセットに対する 6 つの戦略を、低い (3) と高い (100 または 300) の不均衡率 (IR) の両方で評価しました。
主な発見は、各戦略の有効性が使用される指標に応じて大きく異なることを示しています。
この論文では、特殊なアルゴリズム、オーバーサンプリング、およびアンサンブル手法のカテゴリ内の新しいアルゴリズムの選択についても検討します。
この調査結果は、各指標の最もパフォーマンスの高い戦略の現在の階層が、新しいアルゴリズムの導入によって変更される可能性が低いことを示唆しています。
要約(オリジナル)
This paper evaluates six strategies for mitigating imbalanced data: oversampling, undersampling, ensemble methods, specialized algorithms, class weight adjustments, and a no-mitigation approach referred to as the baseline. These strategies were tested on 58 real-life binary imbalanced datasets with imbalance rates ranging from 3 to 120. We conducted a comparative analysis of 10 under-sampling algorithms, 5 over-sampling algorithms, 2 ensemble methods, and 3 specialized algorithms across eight different performance metrics: accuracy, area under the ROC curve (AUC), balanced accuracy, F1-measure, G-mean, Matthew’s correlation coefficient, precision, and recall. Additionally, we assessed the six strategies on altered datasets, derived from real-life data, with both low (3) and high (100 or 300) imbalance ratios (IR). The principal finding indicates that the effectiveness of each strategy significantly varies depending on the metric used. The paper also examines a selection of newer algorithms within the categories of specialized algorithms, oversampling, and ensemble methods. The findings suggest that the current hierarchy of best-performing strategies for each metric is unlikely to change with the introduction of newer algorithms.
arxiv情報
著者 | Jacques Wainer |
発行日 | 2023-11-10 15:54:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google