The Conditioning Bias in Binary Decision Trees and Random Forests and Its Elimination

要約

デシジョン ツリーとランダム フォレストの分類と回帰は、機械学習アプローチで最も広く使用されているものの 1 つです。
二分決定木の実装では、通常、「特徴 $\leq$ (または $<$) しきい値」という形式で条件付けが使用されます。しきい値は、観測された 2 つの特徴値の間の中間点です。 この論文では、格子特性を持つ特徴が存在する場合に、条件付け演算子 (実装の固有の特性) の選択によって導入されるバイアスを調査します。 我々は、このバイアスを排除するための手法を提案します。この手法では、デシジョン ツリーを使用した追加の予測が必要ですが、ランダム フォレストのコストは発生しません。 20 の分類データセットと 20 の回帰データセットを使用して、バイアスが AUC および $r^2$ スコアに関して統計的に有意な差を引き起こす可能性があることを示します。 提案された手法はバイアスを軽減することに成功し、最悪のシナリオと比較して、AUC および $r^2$ スコアの最大 0.1 ~ 0.2 パーセント ポイントの統計的に有意な改善が達成され、$r^2 スコアの 1.5 パーセント ポイントの改善が達成されました。 $ スコアは、ランダム フォレスト回帰の最も感度の高いケースで測定されました。 研究の実装は、GitHub のリポジトリ \url{https://github.com/gykovacs/conditioning_bias} から入手できます。

要約(オリジナル)

Decision tree and random forest classification and regression are some of the most widely used in machine learning approaches. Binary decision tree implementations commonly use conditioning in the form ‘feature $\leq$ (or $<$) threshold', with the threshold being the midpoint between two observed feature values. In this paper, we investigate the bias introduced by the choice of conditioning operator (an intrinsic property of implementations) in the presence of features with lattice characteristics. We propose techniques to eliminate this bias, requiring an additional prediction with decision trees and incurring no cost for random forests. Using 20 classification and 20 regression datasets, we demonstrate that the bias can lead to statistically significant differences in terms of AUC and $r^2$ scores. The proposed techniques successfully mitigate the bias, compared to the worst-case scenario, statistically significant improvements of up to 0.1-0.2 percentage points of AUC and $r^2$ scores were achieved and the improvement of 1.5 percentage points of $r^2$ score was measured in the most sensitive case of random forest regression. The implementation of the study is available on GitHub at the following repository: \url{https://github.com/gykovacs/conditioning_bias}.

arxiv情報

著者 Gábor Timár,György Kovács
発行日 2023-12-17 12:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク