Methods for Class-Imbalanced Learning with Support Vector Machines: A Review and an Empirical Evaluation

要約

この論文では、サポート ベクター マシン (SVM) とそのバリアントを使用したクラス不均衡学習の方法について概説します。
まず、SVM とそのバリアントの構造を説明し、クラス不均衡なデータセットを使用した学習の非効率性について説明します。
クラス不均衡学習に関して、SVM ベースのモデルの階層的分類を導入します。
具体的には、SVM ベースのモデルをリサンプリング、アルゴリズム、フュージョン手法に分類し、各カテゴリの代表的なモデルの原理について説明します。
さらに、低不均衡率から高不均衡率までのベンチマークの不均衡データセットを使用して、各カテゴリのさまざまな代表的な SVM ベースのモデルのパフォーマンスを比較する一連の実証的評価を実行します。
私たちの調査結果では、アルゴリズム手法はデータの前処理要件がないため時間がかかりませんが、再サンプリングとアルゴリズム手法の両方を組み合わせた融合手法は一般に最高のパフォーマンスを発揮しますが、計算負荷が高くなります。
研究のギャップと将来の研究の方向性についての議論が提供されます。

要約(オリジナル)

This paper presents a review on methods for class-imbalanced learning with the Support Vector Machine (SVM) and its variants. We first explain the structure of SVM and its variants and discuss their inefficiency in learning with class-imbalanced data sets. We introduce a hierarchical categorization of SVM-based models with respect to class-imbalanced learning. Specifically, we categorize SVM-based models into re-sampling, algorithmic, and fusion methods, and discuss the principles of the representative models in each category. In addition, we conduct a series of empirical evaluations to compare the performances of various representative SVM-based models in each category using benchmark imbalanced data sets, ranging from low to high imbalanced ratios. Our findings reveal that while algorithmic methods are less time-consuming owing to no data pre-processing requirements, fusion methods, which combine both re-sampling and algorithmic approaches, generally perform the best, but with a higher computational load. A discussion on research gaps and future research directions is provided.

arxiv情報

著者 Salim rezvani,Farhad Pourpanah,Chee Peng Lim,Q. M. Jonathan Wu
発行日 2024-06-05 15:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク