Local MDI+: Local Feature Importances for Tree-Based Models

要約

ランダムフォレストなどの樹木ベースのアンサンブルは、予測のパフォーマンスと計算効率のため、深い学習モデルよりも表形式データの採用であり続けています。
これらの利点は、信頼できる予測を確保するために解釈可能性が不可欠であるハイステークスドメインでの広範な展開につながりました。
これにより、ライムやトレシャップなどの人気のあるローカル(つまり、サンプル固有)機能の重要性(LFI)の開発が動機付けられています。
ただし、これらのアプローチは、モデルの内部構造を無視し、代わりに潜在的に不安定な摂動に依存する近似に依存しています。
これらの問題は、MDI+によるグローバルな設定で対処されています。これは、変換されたノードベースで決定ツリーと線形モデルの間の同等性を活用する機能の重要性方法です。
ただし、グローバルMDI+スコアは、不均一な個々の特性に直面した場合、予測を説明することができません。
このギャップに対処するために、MDI+フレームワークのサンプル固有の設定への新しい拡張であるローカルMDI+(LMDI+)を提案します。
LMDI+は、インスタンス固有の信号機能の識別において、既存のベースラインライムとトレシャップを上回り、12の実際のベンチマークデータセットで下流タスクパフォ​​ーマンスの平均10%の改善を示します。
さらに、複数のランダムな森林適合にわたって同様のインスタンスレベルの機能の重要性ランキングを一貫して生成することにより、より大きな安定性を実証します。
最後に、LMDI+は、密接な反事実の識別や均一なサブグループの発見など、ローカル解釈可能性のユースケースを有効にします。

要約(オリジナル)

Tree-based ensembles such as random forests remain the go-to for tabular data over deep learning models due to their prediction performance and computational efficiency. These advantages have led to their widespread deployment in high-stakes domains, where interpretability is essential for ensuring trustworthy predictions. This has motivated the development of popular local (i.e. sample-specific) feature importance (LFI) methods such as LIME and TreeSHAP. However, these approaches rely on approximations that ignore the model’s internal structure and instead depend on potentially unstable perturbations. These issues are addressed in the global setting by MDI+, a feature importance method which exploits an equivalence between decision trees and linear models on a transformed node basis. However, the global MDI+ scores are not able to explain predictions when faced with heterogeneous individual characteristics. To address this gap, we propose Local MDI+ (LMDI+), a novel extension of the MDI+ framework to the sample specific setting. LMDI+ outperforms existing baselines LIME and TreeSHAP in identifying instance-specific signal features, averaging a 10% improvement in downstream task performance across twelve real-world benchmark datasets. It further demonstrates greater stability by consistently producing similar instance-level feature importance rankings across multiple random forest fits. Finally, LMDI+ enables local interpretability use cases, including the identification of closer counterfactuals and the discovery of homogeneous subgroups.

arxiv情報

著者 Zhongyuan Liang,Zachary T. Rewolinski,Abhineet Agarwal,Tiffany M. Tang,Bin Yu
発行日 2025-06-10 15:51:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク