Explainable Boosting Machines with Sparsity — Maintaining Explainability in High-Dimensional Settings

要約

ランダム フォレストやディープ ニューラル ネットワークなどの「ブラック ボックス」モデルと比較すると、説明可能なブースティング マシン (EBM) は、より高度な透明性と説明可能性を維持しながら、競争力のある精度を実現できる「ガラス ボックス」モデルとみなされます。
ただし、EBM は、多くの予測変数を含む高次元の設定では透明性が低下し、解釈が難しくなります。
また、スコアリング時間が増加するため、本番環境での使用がより困難になります。
私たちは、最小絶対収縮および選択演算子 (LASSO) に基づくシンプルなソリューションを提案します。これは、個々のモデル項を再重み付けし、関連性の低い項を削除することで、スパース性を導入するのに役立ちます。これにより、これらのモデルが透明性と比較的高速なスコアリング時間を維持できるようになります。
-次元設定。
つまり、LASSO を使用して多くの (つまり、おそらく数百または数千の) 項を含む近似 EBM を後処理すると、モデルの複雑さを軽減し、スコアリング時間を大幅に短縮することができます。
2 つの実際の例とコードを使用して、基本的な考え方を説明します。

要約(オリジナル)

Compared to ‘black-box’ models, like random forests and deep neural networks, explainable boosting machines (EBMs) are considered ‘glass-box’ models that can be competitively accurate while also maintaining a higher degree of transparency and explainability. However, EBMs become readily less transparent and harder to interpret in high-dimensional settings with many predictor variables; they also become more difficult to use in production due to increases in scoring time. We propose a simple solution based on the least absolute shrinkage and selection operator (LASSO) that can help introduce sparsity by reweighting the individual model terms and removing the less relevant ones, thereby allowing these models to maintain their transparency and relatively fast scoring times in higher-dimensional settings. In short, post-processing a fitted EBM with many (i.e., possibly hundreds or thousands) of terms using the LASSO can help reduce the model’s complexity and drastically improve scoring time. We illustrate the basic idea using two real-world examples with code.

arxiv情報

著者 Brandon M. Greenwell,Annika Dahlmann,Saurabh Dhoble
発行日 2023-11-13 16:34:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク