要約
ツリーベースのモデルは、多くの場合、情報のない機能に対して堅牢であり、非滑らかで複雑な決定境界を正確にキャプチャできます。
その結果、彼らはしばしば、大幅に低い計算コストで表形式のデータセット上のニューラルネットワークベースのモデルを上回ります。
それにもかかわらず、従来の樹木ベースのアンサンブルが複雑な関係を効率的に表現する能力は、単一の機能を使用して分割を行うことにより制限されます。
樹木ベースの方法の効率と表現力を向上させるために、ランダムな斜めの高速解釈可能な貪欲なツリー合計(RO-FIG)を提案します。
Ro-Figsは、高速解釈可能な貪欲な木合計に基づいて構築され、斜めまたは多変量スプリットで木を学習することで拡張します。各分割は、特徴のランダムサブセットから学習した線形の組み合わせで構成されます。
これにより、機能間の相互作用を明らかにし、パフォーマンスを向上させるのに役立ちます。
提案された方法は、数値的特徴とカテゴリ機能の両方を備えた表形式データセットに適しています。
22の実世界の表形式データセットでRO-FIGを評価し、他のツリーおよびニューラルネットワークベースの方法よりも優れたパフォーマンスとはるかに小さなモデルを実証します。
さらに、それらの分割を分析して、特徴の相互作用に関する貴重な洞察を明らかにし、SHAPサマリープロットから学んだ情報を豊かにし、それによってRO-FIGSモデルの解釈可能性の向上を実証します。
提案された方法は、精度と解釈可能性のバランスが不可欠なアプリケーションに適しています。
要約(オリジナル)
Tree-based models are often robust to uninformative features and can accurately capture non-smooth, complex decision boundaries. Consequently, they often outperform neural network-based models on tabular datasets at a significantly lower computational cost. Nevertheless, the capability of traditional tree-based ensembles to express complex relationships efficiently is limited by using a single feature to make splits. To improve the efficiency and expressiveness of tree-based methods, we propose Random Oblique Fast Interpretable Greedy-Tree Sums (RO-FIGS). RO-FIGS builds on Fast Interpretable Greedy-Tree Sums, and extends it by learning trees with oblique or multivariate splits, where each split consists of a linear combination learnt from random subsets of features. This helps uncover interactions between features and improves performance. The proposed method is suitable for tabular datasets with both numerical and categorical features. We evaluate RO-FIGS on 22 real-world tabular datasets, demonstrating superior performance and much smaller models over other tree- and neural network-based methods. Additionally, we analyse their splits to reveal valuable insights into feature interactions, enriching the information learnt from SHAP summary plots, and thereby demonstrating the enhanced interpretability of RO-FIGS models. The proposed method is well-suited for applications, where balance between accuracy and interpretability is essential.
arxiv情報
著者 | Urška Matjašec,Nikola Simidjievski,Mateja Jamnik |
発行日 | 2025-04-09 14:35:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google