Marginal Laplacian Score

要約

高次元の不均衡なデータは、機械学習の課題を引き起こします。
十分なラベルまたは高品質のラベルがない場合、教師なし特徴選択方法は、後続のアルゴリズムを成功させるために非常に重要です。
したがって、不均衡なデータに焦点を当てた教師なし特徴選択アルゴリズムの必要性が高まっています。
したがって、不均衡データにより適した、よく知られているラプラシアン スコア (LS) を修正した周辺ラプラシアン スコア (MLS) を提案します。
少数派のクラスまたは異常は、特徴の周縁部により頻繁に現れるという仮定を導入します。
したがって、MLS は、データ セットのマージンのローカル構造を保存することを目的としています。
MLS は不均衡なデータの処理に適しているため、ラプラシアン スコアを利用する最新の特徴選択方法に MLS を統合することを提案します。
MLS アルゴリズムを微分可能教師なし特徴選択 (DUFS) に統合し、DUFS-MLS を実現します。
提案された方法は、合成データセットおよび公開データセットに対して堅牢で向上したパフォーマンスを実証します。

要約(オリジナル)

High-dimensional imbalanced data poses a machine learning challenge. In the absence of sufficient or high-quality labels, unsupervised feature selection methods are crucial for the success of subsequent algorithms. Therefore, there is a growing need for unsupervised feature selection algorithms focused on imbalanced data. Thus, we propose a Marginal Laplacian Score (MLS) a modification of the well-known Laplacian Score (LS) to be better suited for imbalance data. We introduce an assumption that the minority class or anomalous appear more frequently in the margin of the features. Consequently, MLS aims to preserve the local structure of the data set’s margin. As MLS is better suited for handling imbalanced data, we propose its integration into modern feature selection methods that utilize the Laplacian score. We integrate the MLS algorithm into the Differentiable Unsupervised Feature Selection (DUFS), resulting in DUFS-MLS. The proposed methods demonstrate robust and improved performance on synthetic and public data sets.

arxiv情報

著者 Guy Hay,Ohad Volk
発行日 2023-11-29 16:45:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.5.0, stat.ML パーマリンク