Unboxing Tree Ensembles for interpretability: a hierarchical visualization tool and a multivariate optimal re-built tree

要約

アルゴリズムによる決定が現実世界のアプリケーションに与える影響が増大しているため、モデルの解釈可能性は機械学習において重要な問題となっています。
ランダム フォレストや XgBoost などのツリー アンサンブル手法は、分類タスクのための強力な学習ツールです。
ただし、複数のツリーを組み合わせると、単一のツリーよりも高い予測品質が提供される可能性がありますが、解釈可能性が犠牲になり、「ブラックボックス」モデルが生成されます。
これを踏まえて、私たちは、ツリー アンサンブル モデルの動作についての貴重な洞察を提供できる、解釈可能な表現を開発することを目指しています。
まず、ターゲットのツリー アンサンブル モデルが与えられた場合、フィーチャの頻度と重要性の指標として選択されるレベルを考慮して、フォレストのフィーチャ使用のヒートマップ表現に基づいて階層的な視覚化ツールを開発します。
次に、ターゲット モデルの予測を正確に模倣する単一の最適な多変量ツリーを構築するための混合整数線形計画法 (MILP) 定式化を提案します。
目標は、定義されたフォレストの重要度指標に従って最も関連性の高いフィーチャのみを使用する、斜めの超平面分割に基づいた解釈可能な代理モデルを提供することです。
MILP モデルには、分割の疎性をさらに誘発するために、フォレスト内の頻度に基づいた特徴選択に対するペナルティが含まれています。
{混合整数} ソフトウェアの計算パフォーマンスを向上させるために、自然な定式化が強化されました。
計算体験は、最先端の既製ソルバーを使用して、UCI リポジトリのベンチマーク データセットに対して実行されます。
結果は、提案されたモデルがツリーアンサンブル決定関数を近似する浅い解釈可能なツリーを生成するのに効果的であることを示しています。

要約(オリジナル)

The interpretability of models has become a crucial issue in Machine Learning because of algorithmic decisions’ growing impact on real-world applications. Tree ensemble methods, such as Random Forests or XgBoost, are powerful learning tools for classification tasks. However, while combining multiple trees may provide higher prediction quality than a single one, it sacrifices the interpretability property resulting in ‘black-box’ models. In light of this, we aim to develop an interpretable representation of a tree-ensemble model that can provide valuable insights into its behavior. First, given a target tree-ensemble model, we develop a hierarchical visualization tool based on a heatmap representation of the forest’s feature use, considering the frequency of a feature and the level at which it is selected as an indicator of importance. Next, we propose a mixed-integer linear programming (MILP) formulation for constructing a single optimal multivariate tree that accurately mimics the target model predictions. The goal is to provide an interpretable surrogate model based on oblique hyperplane splits, which uses only the most relevant features according to the defined forest’s importance indicators. The MILP model includes a penalty on feature selection based on their frequency in the forest to further induce sparsity of the splits. The natural formulation has been strengthened to improve the computational performance of {mixed-integer} software. Computational experience is carried out on benchmark datasets from the UCI repository using a state-of-the-art off-the-shelf solver. Results show that the proposed model is effective in yielding a shallow interpretable tree approximating the tree-ensemble decision function.

arxiv情報

著者 Giulia Di Teodoro,Marta Monaci,Laura Palagi
発行日 2024-01-18 18:42:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク