Towards understanding the bias in decision trees

要約

不均衡なデータから学習する際には、機械学習モデルが多数派(またはネガティブ)クラスに偏っているため、少数派(またはポジティブ)クラスを無視または無視するように導くという広範囲で長年の信念があります。
この研究では、この信念は必ずしも決定木に対して正しいものではなく、それらのバイアスが実際に反対方向にあることを示しています。
決定木が少数派の階級に偏っていることを示唆する最近のシミュレーション研究に動機付けられている私たちの論文は、その研究と他の数十年の間の対立を調整することを目的としています。
まず、この問題に関する過去の文献を批判的に評価し、データ生成プロセスを考慮していないことで、決定ツリーのバイアスに関する誤った結論につながったことを発見しました。
次に、予測因子に関連する特定の条件下では、純度に適合し、1つの肯定的なケースのみでデータセットで訓練されている決定ツリーが少数派のクラスに偏っていることを証明します。
最後に、決定ツリーの分割が複数の肯定的なケースがある場合にも偏っていることを実証します。
私たちの調査結果は、ランダムフォレストなどの一般的な樹木ベースのモデルの使用に影響を与えます。

要約(オリジナル)

There is a widespread and longstanding belief that machine learning models are biased towards the majority (or negative) class when learning from imbalanced data, leading them to neglect or ignore the minority (or positive) class. In this study, we show that this belief is not necessarily correct for decision trees, and that their bias can actually be in the opposite direction. Motivated by a recent simulation study that suggested that decision trees can be biased towards the minority class, our paper aims to reconcile the conflict between that study and decades of other works. First, we critically evaluate past literature on this problem, finding that failing to consider the data generating process has led to incorrect conclusions about the bias in decision trees. We then prove that, under specific conditions related to the predictors, decision trees fit to purity and trained on a dataset with only one positive case are biased towards the minority class. Finally, we demonstrate that splits in a decision tree are also biased when there is more than one positive case. Our findings have implications on the use of popular tree-based models, such as random forests.

arxiv情報

著者 Nathan Phelps,Daniel J. Lizotte,Douglas G. Woolford
発行日 2025-01-27 18:22:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク