Improving the Validity of Decision Trees as Explanations

要約

表形式データを使用した分類と予測では、ツリーベースのモデルがよく利用されます。
これは、表形式データ上のディープ ニューラル ネットワークと競合する可能性があります [cf.
Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815]、条件によっては説明可能です。
説明可能性は、ツリーの深さとツリーの各葉の精度に依存します。
ここでは、各リーフ ノードにわたる最大誤分類誤差を最小限に抑えることを目的として低深度ツリーをトレーニングし、その後、低深度ツリーの各リーフからさらなるツリーベースのモデル (例: 無制限の深さのツリー) を「一時停止」します。
奥行きのある木。
低深度ツリーは簡単に説明できますが、低深度モデルとサスペンド ツリー ベース モデルを組み合わせた全体的な統計パフォーマンスは、古典的な手法 (CART など) を使用してトレーニングされた無制限の深さのデシジョン ツリーに比べて向上しており、現状と同等です。
最新の方法 (例: よく調整された XGBoost)。

要約(オリジナル)

In classification and forecasting with tabular data, one often utilizes tree-based models. This can be competitive with deep neural networks on tabular data [cf. Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815] and, under some conditions, explainable. The explainability depends on the depth of the tree and the accuracy in each leaf of the tree. Here, we train a low-depth tree with the objective of minimising the maximum misclassification error across each leaf node, and then “suspend” further tree-based models (e.g., trees of unlimited depth) from each leaf of the low-depth tree. The low-depth tree is easily explainable, while the overall statistical performance of the combined low-depth and suspended tree-based models improves upon decision trees of unlimited depth trained using classical methods (e.g., CART) and is comparable to state-of-the-art methods (e.g., well-tuned XGBoost).

arxiv情報

著者 Jiri Nemecek,Tomas Pevny,Jakub Marecek
発行日 2023-06-13 15:37:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク