A Semi-Supervised Adaptive Discriminative Discretization Method Improving Discrimination Power of Regularized Naive Bayes

要約

タイトル:正則化されたNaive Bayesの識別力を向上させる半教師付き適応的識別化法

要約:

– 正則化されたNaive Bayes(RNB)を含む多くの改良されたNaive Bayesの方法が開発され、これらには高い識別力がある。しかし、データの離散化はNaive Bayesにとって重要である。同じような値を一つの区間にグループ化することにより、データ分布をより正確に推定することができる。
– RNBを含む既存の方法は、データをあまりに少数の区間に離散化することがあり、重要な情報の喪失につながる。
– この問題に対処するために、我々は半教師付きの適応的識別化フレームワークを提案し、擬似ラベリング技術を通じてラベル付きデータとラベルなしデータの両方を利用して、データ分布をより正確に推定することができる。
– また、適応的識別化スキームを利用することにより、情報喪失を大幅に削減することができ、識別力を大幅に向上させることができる。
– 提案されたRNB+は、さまざまな機械学習データセットでシステム的に評価された。従来のNB分類器を大幅に上回る成績を残した。

要約(オリジナル)

Recently, many improved naive Bayes methods have been developed with enhanced discrimination capabilities. Among them, regularized naive Bayes (RNB) produces excellent performance by balancing the discrimination power and generalization capability. Data discretization is important in naive Bayes. By grouping similar values into one interval, the data distribution could be better estimated. However, existing methods including RNB often discretize the data into too few intervals, which may result in a significant information loss. To address this problem, we propose a semi-supervised adaptive discriminative discretization framework for naive Bayes, which could better estimate the data distribution by utilizing both labeled data and unlabeled data through pseudo-labeling techniques. The proposed method also significantly reduces the information loss during discretization by utilizing an adaptive discriminative discretization scheme, and hence greatly improves the discrimination power of classifiers. The proposed RNB+, i.e., regularized naive Bayes utilizing the proposed discretization framework, is systematically evaluated on a wide range of machine-learning datasets. It significantly and consistently outperforms state-of-the-art NB classifiers.

arxiv情報

著者 Shihe Wang,Jianfeng Ren,Ruibin Bai
発行日 2023-04-05 02:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.IT, cs.LG, math.IT パーマリンク