A Max-relevance-min-divergence Criterion for Data Discretization with Applications on Naive Bayes

要約

タイトル:Naive Bayesの応用を想定したデータ離散化のための最大関連性/最小分散基準

要約:

– データ分類モデルでは、データの分布をより正確に推定するためにデータを離散化することがある。
– 既存のデータ離散化手法は、離散化されたデータの識別能力を最大化することが目的である。
– しかし、データの離散化は、識別能力を最大化することだけでなく、一般化能力を向上させることが主目的である。
– したがって、本論文では、両方の目的を達成するMax-Dependency-Min-Divergence (MDmD) 基準を提案する。
– MDmD基準は、識別情報と一般化能力の両方を最大化するため、技術的に魅力的であるが、高階共同分布の信頼性の高い推定が困難である。
– したがって、より実用的な解決策として、Max-Relevance-Min-Divergence (MRmD) 離散化スキームを提案する。
– MRmDは、各属性を個別に離散化し、同時に識別情報と一般化能力を最大化する。
– MRmDは、naive Bayes分類フレームワークで45の機械学習ベンチマークデータセットにおいて、既存のデータ離散化アルゴリズムと比較して、ほとんどのデータセットで優れた結果を示した。

要約(オリジナル)

In many classification models, data is discretized to better estimate its distribution. Existing discretization methods often target at maximizing the discriminant power of discretized data, while overlooking the fact that the primary target of data discretization in classification is to improve the generalization performance. As a result, the data tend to be over-split into many small bins since the data without discretization retain the maximal discriminant information. Thus, we propose a Max-Dependency-Min-Divergence (MDmD) criterion that maximizes both the discriminant information and generalization ability of the discretized data. More specifically, the Max-Dependency criterion maximizes the statistical dependency between the discretized data and the classification variable while the Min-Divergence criterion explicitly minimizes the JS-divergence between the training data and the validation data for a given discretization scheme. The proposed MDmD criterion is technically appealing, but it is difficult to reliably estimate the high-order joint distributions of attributes and the classification variable. We hence further propose a more practical solution, Max-Relevance-Min-Divergence (MRmD) discretization scheme, where each attribute is discretized separately, by simultaneously maximizing the discriminant information and the generalization ability of the discretized data. The proposed MRmD is compared with the state-of-the-art discretization algorithms under the naive Bayes classification framework on 45 machine-learning benchmark datasets. It significantly outperforms all the compared methods on most of the datasets.

arxiv情報

著者 Shihe Wang,Jianfeng Ren,Ruibin Bai,Yuan Yao,Xudong Jiang
発行日 2023-04-05 02:30:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.DM, cs.IT, cs.LG, math.IT パーマリンク