Model-independent variable selection via the rule-based variable priority

要約

高い予測精度を達成することは機械学習の基本的な目標ですが、同様に重要なタスクは、説明力の高い少数の特徴を見つけることです。
一般的な選択手法の 1 つは置換重要度です。これは、変数を置換した後の予測誤差の変化を測定することによって、変数の影響を評価します。
ただし、人工データを作成する必要があるため、これには問題が生じる可能性があり、他の方法でも同様の問題が発生します。
もう 1 つの問題は、変数選択方法がモデル固有であるために制限される可能性があることです。
モデルに依存しない新しいアプローチである変数優先度 (VarPro) を導入します。これは、人為的なデータの生成や予測誤差の評価を必要とせず、ルールを利用することで機能します。
この方法は比較的使いやすく、単純な統計のサンプル平均を計算するだけでよく、回帰、分類、生存などの多くのデータ設定に適用できます。
我々は、VarPro の漸近特性を調査し、とりわけ、VarPro がノイズ変数に対して一貫したフィルタリング特性を持っていることを示します。
合成データと現実世界のデータを使用した実証研究では、この方法がバランスの取れたパフォーマンスを達成し、現在変数選択に使用されている多くの最先端の手順と比較して有利であることが示されています。

要約(オリジナル)

While achieving high prediction accuracy is a fundamental goal in machine learning, an equally important task is finding a small number of features with high explanatory power. One popular selection technique is permutation importance, which assesses a variable’s impact by measuring the change in prediction error after permuting the variable. However, this can be problematic due to the need to create artificial data, a problem shared by other methods as well. Another problem is that variable selection methods can be limited by being model-specific. We introduce a new model-independent approach, Variable Priority (VarPro), which works by utilizing rules without the need to generate artificial data or evaluate prediction error. The method is relatively easy to use, requiring only the calculation of sample averages of simple statistics, and can be applied to many data settings, including regression, classification, and survival. We investigate the asymptotic properties of VarPro and show, among other things, that VarPro has a consistent filtering property for noise variables. Empirical studies using synthetic and real-world data show the method achieves a balanced performance and compares favorably to many state-of-the-art procedures currently used for variable selection.

arxiv情報

著者 Min Lu,Hemant Ishwaran
発行日 2024-09-16 17:34:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク