Primal Estimated Subgradient Solver for SVM for Imbalanced Classification

要約

タイトル:不均衡分類のためのSVMのための原始推定サブグラディエントソルバー
要約:
– 不均衡データセットにおいて、多数派から少数派までの比率が8.6:1から130:1までの範囲で、コスト感度のPEGASOS SVMが良好なパフォーマンスを発揮し、バイアス、正則化、およびパラメーターを含めた場合のパフォーマンスに影響を与えるかどうかを確認することを目的としています。
– SMOTE方法に頼らず、より計算量の少ない方法を目指しています。
– 学習曲線を検証することでパフォーマンスを評価します。これらの曲線は、過学習または過剰な代表的または不十分なトレーニング/テストデータを選択したかどうかを診断します。
– 検証曲線におけるハイパーパラメーターとテスト/トレーニングエラーの背景を見ることもできます。
– DingのLINEAR SVM DECIDLメソッドのPEGASOSコスト感度SVMのベンチマーク結果を使用します。
– PythonをMATLABの代わりに使用します。Pythonは、多数のパラメーター間で交差検証を行う際に、混合データ型を格納するための辞書を持っています。

要約(オリジナル)

We aim to demonstrate in experiments that our cost sensitive PEGASOS SVM achieves good performance on imbalanced data sets with a Majority to Minority Ratio ranging from 8.6:1 to 130:1 and to ascertain whether the including intercept (bias), regularization and parameters affects performance on our selection of datasets. Although many resort to SMOTE methods, we aim for a less computationally intensive method. We evaluate the performance by examining the learning curves. These curves diagnose whether we overfit or underfit or we choose over representative or under representative training/test data. We will also see the background of the hyperparameters versus the test and train error in validation curves. We benchmark our PEGASOS Cost-Sensitive SVM’s results of Ding’s LINEAR SVM DECIDL method. He obtained an ROC-AUC of .5 in one dataset. Our work will extend the work of Ding by incorporating kernels into SVM. We will use Python rather than MATLAB as python has dictionaries for storing mixed data types during multi-parameter cross-validation.

arxiv情報

著者 John Sun
発行日 2023-04-06 03:25:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.AP パーマリンク