要約
タイトル:次元の呪いに耐える特徴量の選択
要約:
– 現実のデータセットは高次元であり、次元の呪いにより解釈が難しくなっている。
– 特徴量の選択により、これらのデータから学び取るために重要な特徴量を特定することが目的となる。
– 通常、関連性とペアワイズの類似性が使用されるが、次元の呪いは特徴量の選択プロセスにはめったに組み込まれていない。
– 本研究では、異なるサイズのデータサブセットを識別することができる特徴量を特定する新しい方法を提案する。この方法は、内在次元を計算する最近の研究を適応させることにより実現され、データを識別し、次元の呪いを弱めることができる特徴量を選択することができる。
– 実験の結果、本方法は競争力があり、確立された特徴量選択方法よりも優れていることが多いことが示された。また、数百万のデータポイントからなるデータセットにスケールするための近似法も提案された。
– 結果から、データを識別し、低い内在次元と関連する特徴量は、学習手順にとって意味があることが示唆された。
要約(オリジナル)
Real-world datasets are often of high dimension and effected by the curse of dimensionality. This hinders their comprehensibility and interpretability. To reduce the complexity feature selection aims to identify features that are crucial to learn from said data. While measures of relevance and pairwise similarities are commonly used, the curse of dimensionality is rarely incorporated into the process of selecting features. Here we step in with a novel method that identifies the features that allow to discriminate data subsets of different sizes. By adapting recent work on computing intrinsic dimensionalities, our method is able to select the features that can discriminate data and thus weaken the curse of dimensionality. Our experiments show that our method is competitive and commonly outperforms established feature selection methods. Furthermore, we propose an approximation that allows our method to scale to datasets consisting of millions of data points. Our findings suggest that features that discriminate data and are connected to a low intrinsic dimensionality are meaningful for learning procedures.
arxiv情報
著者 | Maximilian Stubbemann,Tobias Hille,Tom Hanika |
発行日 | 2023-04-05 14:26:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI