Improving Online Bagging for Complex Imbalanced Data Stream

要約

不均衡でコンセプトドリフトするデータストリームから分類器を学習することは、依然として課題である。現在の提案のほとんどは、大域的な不均衡比率の変化のみを考慮することに重点を置いており、少数クラスの下位概念への分解や、安全でないタイプの例(境界や希少なもの)の存在など、局所的な困難要因を無視している。ストリーム中に存在する上記の要因は、一般的なオンライン分類器の性能を劣化させる可能性があるため、我々は、安全でない少数例の存在をより良く考慮するために、リサンプリングオンラインバギングの拡張、すなわち、近傍アンダーサンプリングまたはオーバーサンプリングオンラインバギングを提案する。合成された複雑な不均衡データストリームを用いた計算実験により、オンラインバギング再サンプリングアンサンブルの以前の変種に対する優位性が示された。

要約(オリジナル)

Learning classifiers from imbalanced and concept drifting data streams is still a challenge. Most of the current proposals focus on taking into account changes in the global imbalance ratio only and ignore the local difficulty factors, such as the minority class decomposition into sub-concepts and the presence of unsafe types of examples (borderline or rare ones). As the above factors present in the stream may deteriorate the performance of popular online classifiers, we propose extensions of resampling online bagging, namely Neighbourhood Undersampling or Oversampling Online Bagging to take better account of the presence of unsafe minority examples. The performed computational experiments with synthetic complex imbalanced data streams have shown their advantage over earlier variants of online bagging resampling ensembles.

arxiv情報

著者 Bartosz Przybyl,Jerzy Stefanowski
発行日 2024-10-04 15:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク