要約
垂直方向 (つまり、データ量) と水平方向 (つまり、次元数) の両方でデータ生成が急増するにつれて、次元数の呪いの負担がますます明白になってきています。
次元削減技術の重要な側面である特徴選択は、この課題に対処するために大幅に進歩しました。
このような進歩の 1 つは、Boruta 特徴選択アルゴリズムです。これは、シャドウ特徴として知られる並べ替えられた対応物と対比することで、意味のある特徴を識別することに成功しました。
ただし、特徴の重要性は、データの本質的な価値よりもデータ全体の特徴によって決まります。これは、影の特徴が元の特徴の特徴を厳密に模倣する従来の Boruta アルゴリズムにも反映されている感情です。
この前提に基づいて、この文書では、シャドウ変数にノイズを組み込むことによる、Boruta 特徴選択アルゴリズムへの革新的なアプローチを紹介します。
人工ニューラル ネットワークの摂動解析フレームワークと類似したものを使用して、Boruta 法のこの進化版を紹介します。
公開されている 4 つのベンチマーク データセットに対する厳密なテストにより、この提案された手法が従来の Boruta アルゴリズムよりも優れたパフォーマンスを発揮することが明らかになり、強化された正確な特徴選択の可能性が強調されました。
要約(オリジナル)
With the surge in data generation, both vertically (i.e., volume of data) and horizontally (i.e., dimensionality), the burden of the curse of dimensionality has become increasingly palpable. Feature selection, a key facet of dimensionality reduction techniques, has advanced considerably to address this challenge. One such advancement is the Boruta feature selection algorithm, which successfully discerns meaningful features by contrasting them to their permutated counterparts known as shadow features. However, the significance of a feature is shaped more by the data’s overall traits than by its intrinsic value, a sentiment echoed in the conventional Boruta algorithm where shadow features closely mimic the characteristics of the original ones. Building on this premise, this paper introduces an innovative approach to the Boruta feature selection algorithm by incorporating noise into the shadow variables. Drawing parallels from the perturbation analysis framework of artificial neural networks, this evolved version of the Boruta method is presented. Rigorous testing on four publicly available benchmark datasets revealed that this proposed technique outperforms the classic Boruta algorithm, underscoring its potential for enhanced, accurate feature selection.
arxiv情報
著者 | Hassan Gharoun,Navid Yazdanjoe,Mohammad Sadegh Khorshidi,Amir H. Gandomi |
発行日 | 2023-09-18 11:59:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google