Selecting Features by their Resilience to the Curse of Dimensionality

要約

タイトル: 次元の呪いに対する耐久性による特徴量の選択
要約:
– 現実世界のデータセットはしばしば高次元で、次元の呪いによって影響を受ける。
– これは、理解性や解釈性を妨げる。データを学習する上で重要な特徴を特定することを目的として、特徴選択を用いて複雑さを減らす。
– 関連性やペアワイズな類似度の測定は一般的に使用されているが、次元の呪いは特徴量選択のプロセスにはほとんど組み込まれていない。
– 本研究では、異なるサイズのデータサブセットを識別できる特徴を特定する新しい方法を提案しています。
– 最近の内在次元を計算する手法を採用することで、データを識別できる特徴を選択し、次元の呪いを軽減できます。
– 実験結果は、本方法が一般的な特徴選択手法よりも優れた結果を出すことを示しています。
– さらに、数百万のデータポイントから成るデータセットにも対応することができる近似手法を提案しています。
– 結論として、データを識別し、内在次元が低い特徴は、学習手法にとって有意義であると考えられます。

要約(オリジナル)

Real-world datasets are often of high dimension and effected by the curse of dimensionality. This hinders their comprehensibility and interpretability. To reduce the complexity feature selection aims to identify features that are crucial to learn from said data. While measures of relevance and pairwise similarities are commonly used, the curse of dimensionality is rarely incorporated into the process of selecting features. Here we step in with a novel method that identifies the features that allow to discriminate data subsets of different sizes. By adapting recent work on computing intrinsic dimensionalities, our method is able to select the features that can discriminate data and thus weaken the curse of dimensionality. Our experiments show that our method is competitive and commonly outperforms established feature selection methods. Furthermore, we propose an approximation that allows our method to scale to datasets consisting of millions of data points. Our findings suggest that features that discriminate data and are connected to a low intrinsic dimensionality are meaningful for learning procedures.

arxiv情報

著者 Maximilian Stubbemann,Tobias Hille,Tom Hanika
発行日 2023-04-17 11:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク