Correlation and Unintended Biases on Univariate and Multivariate Decision Trees

要約

決定木はアクセスしやすく、解釈しやすく、性能の良い分類モデルである。過去40年間に、表現力を増した数多くの変種が提案されてきた。我々は、分割関数が軸に平行な超平面を通してデータを分割する一変量DTと、その代わりに分割関数が斜めの超平面を通してデータを分割する多変量DTの2つのファミリーを対比する。後者は前者を含むため、原理的には多変量DTの方が強力である。しかし、驚くべきことに、一変量DTは一貫して同等の性能を示している。その理由を、合成データセットと実世界のベンチマークデータセットの両方を用いて分析する。我々の研究課題は、データセットの特徴間の相関を除去する前処理段階が、一変量DTと多変量DTの相対性能に影響を与えるかどうかを検証することである。その結果、既存のベンチマークデータセットは一変量DTに偏っている可能性が高いことがわかった。

要約(オリジナル)

Decision Trees are accessible, interpretable, and well-performing classification models. A plethora of variants with increasing expressiveness has been proposed in the last forty years. We contrast the two families of univariate DTs, whose split functions partition data through axis-parallel hyperplanes, and multivariate DTs, whose splits instead partition data through oblique hyperplanes. The latter include the former, hence multivariate DTs are in principle more powerful. Surprisingly enough, however, univariate DTs consistently show comparable performances in the literature. We analyze the reasons behind this, both with synthetic and real-world benchmark datasets. Our research questions test whether the pre-processing phase of removing correlation among features in datasets has an impact on the relative performances of univariate vs multivariate DTs. We find that existing benchmark datasets are likely biased towards favoring univariate DTs.

arxiv情報

著者 Mattia Setzu,Salvatore Ruggieri
発行日 2023-12-04 13:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク