Restoring balance: principled under/oversampling of data for optimal classification

要約

実世界のデータにおけるクラスの不均衡は、過小評価されている例で適切な一般化を達成することが困難な場合が多いため、機械学習タスクに共通のボトルネックを引き起こします。
データ量に応じてデータをアンダーサンプリングまたはオーバーサンプリングするなどの緩和戦略は日常的に提案され、経験的にテストされていますが、それをデータ統計にどのように適応させるべきかについては十分に理解されていないままです。
この研究では、線形分類器 (サポート ベクター マシン) の高次元領域における一般化曲線の正確な分析式を決定します。
また、クラスの不均衡、データの 1 番目と 2 番目のモーメント、考慮されたパフォーマンスの指標に応じて、アンダー/オーバーサンプリング戦略の影響を正確に予測します。
データのアンダーサンプリングとオーバーサンプリングを含む混合戦略がパフォーマンスの向上につながることを示します。
数値実験を通じて、実際のデータセット、より深いアーキテクチャ、および教師なし確率モデルに基づくサンプリング戦略との理論的予測の関連性を示します。

要約(オリジナル)

Class imbalance in real-world data poses a common bottleneck for machine learning tasks, since achieving good generalization on under-represented examples is often challenging. Mitigation strategies, such as under or oversampling the data depending on their abundances, are routinely proposed and tested empirically, but how they should adapt to the data statistics remains poorly understood. In this work, we determine exact analytical expressions of the generalization curves in the high-dimensional regime for linear classifiers (Support Vector Machines). We also provide a sharp prediction of the effects of under/oversampling strategies depending on class imbalance, first and second moments of the data, and the metrics of performance considered. We show that mixed strategies involving under and oversampling of data lead to performance improvement. Through numerical experiments, we show the relevance of our theoretical predictions on real datasets, on deeper architectures and with sampling strategies based on unsupervised probabilistic models.

arxiv情報

著者 Emanuele Loffredo,Mauro Pastore,Simona Cocco,Rémi Monasson
発行日 2024-05-15 17:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG パーマリンク