Robust Universum Twin Support Vector Machine for Imbalanced Data

要約

機械学習方法の主な困難の1つは、不均衡なデータセットを分類することです。
この問題は、トレーニングプロセスが多数派クラスに支配されている偏ったモデルにつながる可能性があり、その結果、少数派クラスの不十分な表現が生じます。
Universum Twin Support Vector Machine(UTSVM)は、多数派クラスに向けて偏ったモデルを生成します。その結果、少数派クラスでのパフォーマンスは誤ってノイズとして分類されるため、しばしば貧弱です。
さらに、UTSVMは、外れ値とノイズを含むデータセットの処理に習熟していません。
データに関する以前の情報を組み込み、直観主義的なファジーメンバーシップスキームを採用するという概念に触発されて、全体的な堅牢性を高めることにより、不均衡なデータ(IFUTSVM-ID)の直観的ファジーUTSVMを提案します。
直感的なファジーメンバーシップスキームを使用して、ノイズと外れ値の影響を軽減します。
さらに、不均衡なクラス分布の問題に取り組むために、データのオーバーサンプリングとアンダーサンプリング方法が利用されます。
データに関する事前知識は、Universumデータによって提供されます。
これにより、一般化のパフォーマンスが向上します。
UTSVMは、主要な製剤における構造リスク最小化(SRM)原則の省略により、リスクに過度に適合しやすくなります。
ただし、提案されているIFUTSVM-IDモデルには、正規化条件の組み込みを通じてSRM原則が組み込まれ、過剰適合の問題に効果的に対処します。
Keelのベンチマークデータセットで提案されているIFUTSVM-IDモデルの包括的な評価を実施し、既存のベースラインモデルと比較します。
さらに、アルツハイマー病(AD)の診断において提案されたIFUTSVM-IDモデルの有効性を評価するために、アルツハイマー病神経画像イニシアチブ(ADNI)データセットにそれらを適用しました。
実験結果は、ベースラインモデルと比較して、提案されたIFUTSVM-IDモデルの優位性を示しています。

要約(オリジナル)

One of the major difficulties in machine learning methods is categorizing datasets that are imbalanced. This problem may lead to biased models, where the training process is dominated by the majority class, resulting in inadequate representation of the minority class. Universum twin support vector machine (UTSVM) produces a biased model towards the majority class, as a result, its performance on the minority class is often poor as it might be mistakenly classified as noise. Moreover, UTSVM is not proficient in handling datasets that contain outliers and noises. Inspired by the concept of incorporating prior information about the data and employing an intuitionistic fuzzy membership scheme, we propose intuitionistic fuzzy UTSVM for imbalanced data (IFUTSVM-ID) by enhancing overall robustness. We use an intuitionistic fuzzy membership scheme to mitigate the impact of noise and outliers. Moreover, to tackle the problem of imbalanced class distribution, data oversampling and undersampling methods are utilized. Prior knowledge about the data is provided by universum data. This leads to better generalization performance. UTSVM is susceptible to overfitting risks due to the omission of the structural risk minimization (SRM) principle in their primal formulations. However, the proposed IFUTSVM-ID model incorporates the SRM principle through the incorporation of regularization terms, effectively addressing the issue of overfitting. We conduct a comprehensive evaluation of the proposed IFUTSVM-ID model on benchmark datasets from KEEL and compare it with existing baseline models. Furthermore, to assess the effectiveness of the proposed IFUTSVM-ID model in diagnosing Alzheimer’s disease (AD), we applied them to the Alzheimer’s Disease Neuroimaging Initiative (ADNI) dataset. Experimental results showcase the superiority of the proposed IFUTSVM-ID models compared to the baseline models.

arxiv情報

著者 M. Tanveer,A. Quadir
発行日 2025-04-18 11:35:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク