Trinary Decision Trees for handling missing data

要約

このペーパーでは、決定木リグレッサーおよび分類子における欠損データの処理を改善するために設計されたアルゴリズムである、Trinary 決定木を紹介します。
他のアプローチとは異なり、Trinary デシジョン ツリーでは、欠損値に応答に関する情報が含まれていることを想定しません。
推定器のバイアスに関する理論的な計算と実際のデータセットを使用した数値図の両方が、さまざまな欠損データ シナリオ (ランダム完全欠損 (MCAR) および情報欠損 (IM)) における確立されたアルゴリズムとそのパフォーマンスを比較するために提示されます。
特に、Trinary ツリーは MCAR 設定で他の製品よりも優れており、特にサンプル外でのみデータが欠落している場合に顕著ですが、IM 設定では劣っています。
ハイブリッド モデルである TrinaryMIA ツリーは、Trinary ツリーと Missing In Attributes (MIA) アプローチを組み合わせたもので、あらゆるタイプの欠損において堅牢なパフォーマンスを示します。
トレーニング速度が遅いという潜在的な欠点にもかかわらず、三分木はデシジョン ツリー アルゴリズムで欠損データを処理するための有望でより正確な方法を提供します。

要約(オリジナル)

This paper introduces the Trinary decision tree, an algorithm designed to improve the handling of missing data in decision tree regressors and classifiers. Unlike other approaches, the Trinary decision tree does not assume that missing values contain any information about the response. Both theoretical calculations on estimator bias and numerical illustrations using real data sets are presented to compare its performance with established algorithms in different missing data scenarios (Missing Completely at Random (MCAR), and Informative Missingness (IM)). Notably, the Trinary tree outperforms its peers in MCAR settings, especially when data is only missing out-of-sample, while lacking behind in IM settings. A hybrid model, the TrinaryMIA tree, which combines the Trinary tree and the Missing In Attributes (MIA) approach, shows robust performance in all types of missingness. Despite the potential drawback of slower training speed, the Trinary tree offers a promising and more accurate method of handling missing data in decision tree algorithms.

arxiv情報

著者 Henning Zakrisson
発行日 2024-01-11 14:19:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク