A replica analysis of under-bagging

要約

不均衡なデータから分類器をトレーニングするための一般的なアンサンブル学習方法であるアンダーバギング (UB) 法の鋭い漸近線が導出され、不均衡なデータから学習するための他のいくつかの標準的な方法と比較するために使用されます。
線形分類器はバイナリ混合データからトレーニングされます。
比較される手法には、サブサンプリングされたデータセットの 1 つの実現を使用してモデルをトレーニングするアンダーサンプリング (US) 手法と、データ全体の加重損失を使用してモデルをトレーニングする単純重み付け (SW) 手法が含まれます。
たとえクラスの不均衡が大きくても、特に少数派クラスのサイズが小さい場合には、多数派クラスのサイズを大きくすることで UB のパフォーマンスが向上することが示されています。
これは、多数派層の規模が大きくなってもパフォーマンスが変わらない US や、不均衡が増大するにつれてパフォーマンスが低下する SW とは対照的です。
これらの結果は、クラスの不均衡の構造を考慮せずに一般化線形モデルをトレーニングする際の単純なバギングの場合とは異なり、アンサンブルとパラメーターの直接正則化の間の本質的な違いを示しています。

要約(オリジナル)

A sharp asymptotics of the under-bagging (UB) method, which is a popular ensemble learning method for training classifiers from an imbalanced data, is derived and used to compare with several other standard methods for learning from imbalanced data, in the scenario where a linear classifier is trained from a binary mixture data. The methods compared include the under-sampling (US) method, which trains a model using a single realization of the subsampled dataset, and the simple weighting (SW) method, which trains a model with a weighted loss on the entire data. It is shown that the performance of UB is improved by increasing the size of the majority class, even if the class imbalance can be large, especially when the size of the minority class is small. This is in contrast to US, whose performance does not change as the size of the majority class increases, and SW, whose performance decreases as the imbalance increases. These results are different from the case of the naive bagging in training generalized linear models without considering the structure of class imbalance, indicating the intrinsic difference between the ensembling and the direct regularization on the parameters.

arxiv情報

著者 Takashi Takahashi
発行日 2024-04-15 13:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG, stat.ML パーマリンク