要約
特徴の選択は、高次元データセット内の関連する特徴を正確に特定し、「次元の呪い」を軽減し、機械学習のパフォーマンスを向上させるために重要です。
従来の分類用の特徴選択方法では、すべてのクラスのデータを使用して各クラスの特徴を選択します。
この論文では、低ランク生成法に基づくクラス モデルを使用し、信号対雑音比 (SNR) 特徴選択基準を導入して、クラスごとに特徴を個別に選択する特徴選択方法について検討します。
この新しいアプローチには、特定の仮定の下で理論的に真の特徴回復が保証されており、標準的な分類データセットに対する一部の既存の特徴選択方法よりも優れたパフォーマンスを発揮することが示されています。
要約(オリジナル)
Feature selection is crucial for pinpointing relevant features in high-dimensional datasets, mitigating the ‘curse of dimensionality,’ and enhancing machine learning performance. Traditional feature selection methods for classification use data from all classes to select features for each class. This paper explores feature selection methods that select features for each class separately, using class models based on low-rank generative methods and introducing a signal-to-noise ratio (SNR) feature selection criterion. This novel approach has theoretical true feature recovery guarantees under certain assumptions and is shown to outperform some existing feature selection methods on standard classification datasets.
arxiv情報
著者 | Rittwika Kansabanik,Adrian Barbu |
発行日 | 2024-12-13 13:20:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google