Nonparametric IPSS: Fast, flexible feature selection with false discovery control

要約

機能の選択は、機械学習と統計における重要なタスクです。
ただし、既存の特徴選択方法のいずれかです。(i)線形または一般化された線形モデルなどのパラメトリックメソッドに依存している、(ii)理論的な誤検出制御がない、または(iii)真の陽性をほとんど識別しない。
ここでは、積分パス安定性選択(IPS)を任意の機能の重要性スコアに適用することに基づいて、有限サンプルの誤検出制御を備えた一般的な機能選択方法を紹介します。
この方法は、重要なスコアがノンパラメトリックである場合はいつでもノンパラメトリックであり、p値よりも高次元データにより適したQ値を推定します。
Gradient Boosting(IPSSGB)およびランダムフォレスト(IPSSRF)の重要性スコアを使用して、2つの特別なケースに焦点を当てています。
RNAシーケンスデータを使用した広範な非線形シミュレーションは、両方の方法が誤検出率を正確に制御し、既存の方法よりも多くの真の陽性を検出することを示しています。
どちらの方法も効率的で、500のサンプルと5000の機能がある場合に20秒以内に実行されます。
IPSSGBとIPSSRFを適用して、癌に関連するマイクロRNAと遺伝子を検出し、既存のアプローチよりも少ない特徴でより良い予測をもたらすことがわかりました。

要約(オリジナル)

Feature selection is a critical task in machine learning and statistics. However, existing feature selection methods either (i) rely on parametric methods such as linear or generalized linear models, (ii) lack theoretical false discovery control, or (iii) identify few true positives. Here, we introduce a general feature selection method with finite-sample false discovery control based on applying integrated path stability selection (IPSS) to arbitrary feature importance scores. The method is nonparametric whenever the importance scores are nonparametric, and it estimates q-values, which are better suited to high-dimensional data than p-values. We focus on two special cases using importance scores from gradient boosting (IPSSGB) and random forests (IPSSRF). Extensive nonlinear simulations with RNA sequencing data show that both methods accurately control the false discovery rate and detect more true positives than existing methods. Both methods are also efficient, running in under 20 seconds when there are 500 samples and 5000 features. We apply IPSSGB and IPSSRF to detect microRNAs and genes related to cancer, finding that they yield better predictions with fewer features than existing approaches.

arxiv情報

著者 Omar Melikechi,David B. Dunson,Jeffrey W. Miller
発行日 2025-05-06 14:02:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.ME, stat.ML パーマリンク