End-to-end Feature Selection Approach for Learning Skinny Trees

要約

我々は、統計学や機械学習における重要な問題である、木アンサンブルにおける特徴選択のための新しい最適化ベースのアプローチを提案する。例えば、勾配ブースティング木やランダムフォレストなどの一般的な木アンサンブルツールキットは、特徴量の重要度スコアに基づく学習後の特徴選択をサポートする。我々はSkinny Treesを提案する。Skinny Treesは、木アンサンブルにおける特徴選択のためのエンドツーエンドのツールキットであり、選択する特徴の数を制御しながら木アンサンブルを学習する。この最適化ベースのアプローチは、微分可能な木のアンサンブルを学習し、同時にグループ化$ell_0$正則化器を用いて特徴選択を行う。最適化には一次法を用い、本アプローチの収束保証を示す。密から疎への正則化スケジューリングスキームを用いることで、より表現力豊かで疎な木アンサンブルを導くことができる。15個の合成データセットと実データセットで、Skinny Treesは$1.5.0~$1.5.0倍を達成した!-~を達成し、密な木よりも10倍高速な推論が可能である。例えば、25%の特徴バジェットに対するAUC性能において、 Skinny TreesはLightGBMを$10.2%(最大$37.7%)、Random Forestsを$3%(最大$12.5%)上回る。

要約(オリジナル)

We propose a new optimization-based approach for feature selection in tree ensembles, an important problem in statistics and machine learning. Popular tree ensemble toolkits e.g., Gradient Boosted Trees and Random Forests support feature selection post-training based on feature importance scores, while very popular, they are known to have drawbacks. We propose Skinny Trees: an end-to-end toolkit for feature selection in tree ensembles where we train a tree ensemble while controlling the number of selected features. Our optimization-based approach learns an ensemble of differentiable trees, and simultaneously performs feature selection using a grouped $\ell_0$-regularizer. We use first-order methods for optimization and present convergence guarantees for our approach. We use a dense-to-sparse regularization scheduling scheme that can lead to more expressive and sparser tree ensembles. On 15 synthetic and real-world datasets, Skinny Trees can achieve $1.5\!\times\! -~620~\!\times\!$ feature compression rates, leading up to $10\times$ faster inference over dense trees, without any loss in performance. Skinny Trees lead to superior feature selection than many existing toolkits e.g., in terms of AUC performance for 25\% feature budget, Skinny Trees outperforms LightGBM by $10.2\%$ (up to $37.7\%$), and Random Forests by $3\%$ (up to $12.5\%$).

arxiv情報

著者 Shibal Ibrahim,Kayhan Behdin,Rahul Mazumder
発行日 2024-09-03 07:34:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク