要約
タイトル:特徴の相互影響の分析によってランダムフォレストのブラックボックスを開く
要約:
– ランダムフォレストは、柔軟であるため、関連のある特徴の選択のために変数の重要度を提供することから、高次元データの分析のために人気のある機械学習アプローチです。
– ただし、特徴間の複雑な関係は通常の選択には考慮されず、分析されたサンプルの特質にも影響を与えない傾向にあります。
– この論文では、ランダムフォレストの特徴の相互影響に注目した2つの新しいアプローチを提案しています。
– Mutual forest impact(MFI)は相互関連性を評価する関係パラメータであり、そのため相関係数の分析を超えるものです。
– Mutual impurity reduction(MIR)はこの関係パラメータを各特徴の重要性と組み合わせた重要性指標です。
– MIRとMFIは関連性のある特徴の選択に対するp値を生成するテスト手順とともに実装されます。
– 常見の偏り、つまり多くの分割や高い最小アレル頻度を持つ特徴が好まれるといった問題にも影響されないということが実証され、MFIとMIRは特徴とアウトカムの複雑な関係に光を当てるための約束を示しています。
要約(オリジナル)
Random forest is a popular machine learning approach for the analysis of high-dimensional data because it is flexible and provides variable importance measures for the selection of relevant features. However, the complex relationships between the features are usually not considered for the selection and thus also neglected for the characterization of the analysed samples. Here we propose two novel approaches that focus on the mutual impact of features in random forests. Mutual forest impact (MFI) is a relation parameter that evaluates the mutual association of the featurs to the outcome and, hence, goes beyond the analysis of correlation coefficients. Mutual impurity reduction (MIR) is an importance measure that combines this relation parameter with the importance of the individual features. MIR and MFI are implemented together with testing procedures that generate p-values for the selection of related and important features. Applications to various simulated data sets and the comparison to other methods for feature selection and relation analysis show that MFI and MIR are very promising to shed light on the complex relationships between features and outcome. In addition, they are not affected by common biases, e.g. that features with many possible splits or high minor allele frequencies are prefered.
arxiv情報
著者 | Lucas F. Voges,Lukas C. Jarren,Stephan Seifert |
発行日 | 2023-04-05 15:03:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI