On feature selection in double-imbalanced data settings: a Random Forest approach

要約

特徴の選択は、特に二重の不均衡の困難な条件、つまり、応答変数のクラスの不均衡とデータ$(n \ gg P)$の寸法非対称性の両方を特徴とする設定の下で、高次元分類タスクの重要なステップです。
このようなシナリオでは、ランダムフォレスト(RF)に適用される従来の機能選択方法が不安定または誤解を招く重要性のランキングを得ることがよくあります。
このペーパーでは、最小限の深さに基づいて機能選択のための新しいしきい値スキームを提案します。これは、ツリートポロジを悪用して可変関連性を評価することです。
シミュレートされた現実世界のデータセットに関する広範な実験は、提案されたアプローチが、従来の最小深度ベースの選択と比較して、変数のより標準的で正確なサブセットを生成することを示しています。
この方法は、二重の不均衡条件下でRFで可変選択のための実用的で解釈可能なソリューションを提供します。

要約(オリジナル)

Feature selection is a critical step in high-dimensional classification tasks, particularly under challenging conditions of double imbalance, namely settings characterized by both class imbalance in the response variable and dimensional asymmetry in the data $(n \gg p)$. In such scenarios, traditional feature selection methods applied to Random Forests (RF) often yield unstable or misleading importance rankings. This paper proposes a novel thresholding scheme for feature selection based on minimal depth, which exploits the tree topology to assess variable relevance. Extensive experiments on simulated and real-world datasets demonstrate that the proposed approach produces more parsimonious and accurate subsets of variables compared to conventional minimal depth-based selection. The method provides a practical and interpretable solution for variable selection in RF under double imbalance conditions.

arxiv情報

著者 Fabio Demaria
発行日 2025-06-12 17:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62-08, cs.LG, stat.ME パーマリンク