Effect of hyperparameters on variable selection in random forests

要約

ランダム フォレスト (RF) は、高次元オミクス研究における予測モデリングと変数選択に適しています。
RF アルゴリズムのハイパーパラメータが予測パフォーマンスと変数重要度の推定に及ぼす影響は、以前に調査されています。
ただし、ハイパーパラメータが RF ベースの変数選択にどのような影響を与えるかは依然として不明です。
理論的分布と経験的な遺伝子発現データを利用した 2 つのシミュレーション研究に基づいて、Vita および Boruta 変数選択手順への影響を評価します。
誤検出率 (FDR) を制御しながら、重要な変数を選択する手順の能力 (感度) を評価します。
我々の結果は、トレーニング データセットの描画戦略や最小ターミナル ノード サイズよりも、トレーニング データセットの分割候補変数 (mtry.prop) とサンプル部分 (sample.fraction) の割合の方が選択手順に影響を与えることを示しています。
RF ハイパーパラメータの適切な設定は、データ内の相関構造によって異なります。
相関の弱い予測子変数の場合、mtry のデフォルト値が最適ですが、sample.fraction の値が小さいほど感度が高くなります。
対照的に、sample.fraction のデフォルト値と比較した最適値の感度の差は、相関の強い予測子変数では無視できますが、他の設定ではデフォルトより小さい値の方が優れています。
結論として、ハイパーパラメータのデフォルト値は、重要な変数を識別するのに常に適しているとは限りません。
したがって、適切な値は、研究の目的が予測パフォーマンスの最適化であるか変数選択であるかによって異なります。

要約(オリジナル)

Random forests (RFs) are well suited for prediction modeling and variable selection in high-dimensional omics studies. The effect of hyperparameters of the RF algorithm on prediction performance and variable importance estimation have previously been investigated. However, how hyperparameters impact RF-based variable selection remains unclear. We evaluate the effects on the Vita and the Boruta variable selection procedures based on two simulation studies utilizing theoretical distributions and empirical gene expression data. We assess the ability of the procedures to select important variables (sensitivity) while controlling the false discovery rate (FDR). Our results show that the proportion of splitting candidate variables (mtry.prop) and the sample fraction (sample.fraction) for the training dataset influence the selection procedures more than the drawing strategy of the training datasets and the minimal terminal node size. A suitable setting of the RF hyperparameters depends on the correlation structure in the data. For weakly correlated predictor variables, the default value of mtry is optimal, but smaller values of sample.fraction result in larger sensitivity. In contrast, the difference in sensitivity of the optimal compared to the default value of sample.fraction is negligible for strongly correlated predictor variables, whereas smaller values than the default are better in the other settings. In conclusion, the default values of the hyperparameters will not always be suitable for identifying important variables. Thus, adequate values differ depending on whether the aim of the study is optimizing prediction performance or variable selection.

arxiv情報

著者 Cesaire J. K. Fouodo,Lea L. Kronziel,Inke R. König,Silke Szymczak
発行日 2023-09-13 13:26:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク