Imbalanced Data Stream Classification using Dynamic Ensemble Selection

要約

最新のストリーミング データの分類は、概念のずれやクラスの不均衡なデータによる重大な課題に直面しています。
これは分類器の出力に悪影響を及ぼし、不適切な分類につながります。
さらに、複数のクラスの重複などの他の要因により、出力の正確性の程度が制限されます。
この研究は、データ前処理と動的アンサンブル選択技術を採用した非定常漂流不均衡データ ストリームの分類フレームワークを定式化することにより、データ前処理と動的アンサンブル選択を統合するための新しいフレームワークを提案します。
提案されたフレームワークは、不均衡率が異なる 6 つの人工的に生成されたデータ ストリームと 2 つの異なるタイプのコンセプト ドリフトを組み合わせて評価されました。
各ストリームは、8 つの特徴によって記述される 500 個のオブジェクトの 200 個のチャンクで構成され、5 つのコンセプト ドリフトが含まれています。
7 つの前処理手法と 2 つの動的アンサンブル選択手法が検討されました。
実験結果によると、データ前処理と動的アンサンブル選択技術を組み合わせることで、不均衡なデータ ストリームを処理する際の精度が大幅に向上します。

要約(オリジナル)

Modern streaming data categorization faces significant challenges from concept drift and class imbalanced data. This negatively impacts the output of the classifier, leading to improper classification. Furthermore, other factors such as the overlapping of multiple classes limit the extent of the correctness of the output. This work proposes a novel framework for integrating data pre-processing and dynamic ensemble selection, by formulating the classification framework for the nonstationary drifting imbalanced data stream, which employs the data pre-processing and dynamic ensemble selection techniques. The proposed framework was evaluated using six artificially generated data streams with differing imbalance ratios in combination with two different types of concept drifts. Each stream is composed of 200 chunks of 500 objects described by eight features and contains five concept drifts. Seven pre-processing techniques and two dynamic ensemble selection methods were considered. According to experimental results, data pre-processing combined with Dynamic Ensemble Selection techniques significantly delivers more accuracy when dealing with imbalanced data streams.

arxiv情報

著者 Priya. S,Haribharathi Sivakumar,Vijay Arvind. R
発行日 2023-09-28 17:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク