On marginal feature attributions of tree-based models

要約

ランダム フォレストや勾配ブースト ツリー アンサンブルなどのツリーベースの機械学習モデルは、その強力さと使いやすさにより、非常に人気が高まっています。
それらを解釈するには、限界期待に基づいた局所特徴の帰属が必要です。
限界(介入)シャプレー値、オーウェン値、またはバンザフ値を使用してもよい。
このような方法は、モデルと実装の不変条件に忠実です。つまり、モデルの入出力関数のみに依存します。
これを、「パス依存」TreeSHAP が特徴の異なるランキングを生成するのに対し、限界 Shapley 値は一致するまったく同じ関数を計算する 2 つの (統計的に類似した) 決定木を提示することで、これを一般的な TreeSHAP アルゴリズムと対比します。
さらに、線形ゲーム価値に従って周辺特徴の属性を計算するのに役立つように、ツリーベースのモデルの内部構造をどのように活用できるかについて説明します。
1 つの重要な観察は、これらが、トレーニングされたモデルによって決定される入力空間の特定のグリッド分割に関する単純な (区分的に定数) 関数であるということです。
XGBoost、LightGBM、および CatBoost ライブラリを使用した実験で示されたもう 1 つの重要な観察は、アンサンブルのツリーにはすべての特徴の一部のみが表示されるということです。
したがって、周辺シャプレー(またはオーウェンまたはバンザフ)の特徴の属性を計算する複雑さを軽減することができる。
これは、公理的に特徴付けるゲーム価値のより広いクラスに対して依然として有効です。
代表的な例は、ツリーが認識されず (対称的)、それぞれのフィーチャの数が深さ以下である CatBoost モデルの場合です。
対称性を利用して、CatBoost モデルの周辺 Shapley (および Banzhaf と Owen) 値について、内部モデル パラメーターのみを考慮して複雑さを改善した明示的な式を導き出します。
これにより、これらの特徴の属性を推定するための高速かつ正確なアルゴリズムが実現します。

要約(オリジナル)

Due to their power and ease of use, tree-based machine learning models, such as random forests and gradient-boosted tree ensembles, have become very popular. To interpret them, local feature attributions based on marginal expectations, e.g. marginal (interventional) Shapley, Owen or Banzhaf values, may be employed. Such methods are true to the model and implementation invariant, i.e. dependent only on the input-output function of the model. We contrast this with the popular TreeSHAP algorithm by presenting two (statistically similar) decision trees that compute the exact same function for which the ‘path-dependent’ TreeSHAP yields different rankings of features, whereas the marginal Shapley values coincide. Furthermore, we discuss how the internal structure of tree-based models may be leveraged to help with computing their marginal feature attributions according to a linear game value. One important observation is that these are simple (piecewise-constant) functions with respect to a certain grid partition of the input space determined by the trained model. Another crucial observation, showcased by experiments with XGBoost, LightGBM and CatBoost libraries, is that only a portion of all features appears in a tree from the ensemble. Thus, the complexity of computing marginal Shapley (or Owen or Banzhaf) feature attributions may be reduced. This remains valid for a broader class of game values which we shall axiomatically characterize. A prime example is the case of CatBoost models where the trees are oblivious (symmetric) and the number of features in each of them is no larger than the depth. We exploit the symmetry to derive an explicit formula, with improved complexity and only in terms of the internal model parameters, for marginal Shapley (and Banzhaf and Owen) values of CatBoost models. This results in a fast, accurate algorithm for estimating these feature attributions.

arxiv情報

著者 Khashayar Filom,Alexey Miroshnikov,Konstandinos Kotsiopoulos,Arjun Ravi Kannan
発行日 2024-03-08 18:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク