Application of the representative measure approach to assess the reliability of decision trees in dealing with unseen vehicle collision data

要約

機械学習アルゴリズムは、新しいデータ情報に基づいた人工知能アーキテクチャの基本コンポーネントです。
この分野では、代表的なデータセットの重要な役割が、人工知能 (AI) 開発の軌道を形作る上での基礎となります。
機械学習コンポーネントを適切にトレーニングするには、代表的なデータセットが必要です。
適切なトレーニングは複数の効果をもたらします。最終モデルの複雑さ、能力、不確実性が軽減されます。
この論文では、決定木の理論的観点からデータセットの類似性を評価する $\varepsilon$-representativeness 法の信頼性を調査します。
説明可能なことが知られているさまざまなモデルが含まれているため、決定木ファミリーに焦点を当てることにしました。
したがって、この論文では、2 つのデータセットが $\varepsilon$ 代表性によって関連付けられている場合、つまり、両方のデータセットが $\varepsilon$ よりも近い点を持っている場合、古典的な決定木による予測が類似していることを保証する結果を提供します。
実験的に、$\varepsilon$-代表性が特徴量の重要性の順序と有意な相関関係を示すこともテストしました。
さらに、表形式データを処理するために広く採用されている機械学習コンポーネントである XGboost の目に見えない車両衝突データのコンテキストで結果を実験的に拡張しました。

要約(オリジナル)

Machine learning algorithms are fundamental components of novel data-informed Artificial Intelligence architecture. In this domain, the imperative role of representative datasets is a cornerstone in shaping the trajectory of artificial intelligence (AI) development. Representative datasets are needed to train machine learning components properly. Proper training has multiple impacts: it reduces the final model’s complexity, power, and uncertainties. In this paper, we investigate the reliability of the $\varepsilon$-representativeness method to assess the dataset similarity from a theoretical perspective for decision trees. We decided to focus on the family of decision trees because it includes a wide variety of models known to be explainable. Thus, in this paper, we provide a result guaranteeing that if two datasets are related by $\varepsilon$-representativeness, i.e., both of them have points closer than $\varepsilon$, then the predictions by the classic decision tree are similar. Experimentally, we have also tested that $\varepsilon$-representativeness presents a significant correlation with the ordering of the feature importance. Moreover, we extend the results experimentally in the context of unseen vehicle collision data for XGboost, a machine-learning component widely adopted for dealing with tabular data.

arxiv情報

著者 Javier Perera-Lago,Víctor Toscano-Durán,Eduardo Paluzo-Hidalgo,Sara Narteni,Matteo Rucco
発行日 2024-04-15 08:06:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク