Variable selection for Naïve Bayes classification

要約

Na\’ive Bayes は、多変量解析における分類のための扱いやすく効率的な方法であることが証明されています。
ただし、通常、特徴は相関しており、これは条件付き独立性に関する Na\’ive Bayes の仮定に違反し、メソッドのパフォーマンスを低下させる可能性があります。
さらに、データセットは多くの場合、多数の特徴によって特徴づけられるため、結果の解釈が複雑になったり、メソッドの実行が遅くなる可能性があります。
この論文では、3 つのプロパティによって特徴付けられる Na\’ive Bayes 分類器のスパース バージョンを提案します。
まず、共変量の相関構造を考慮してスパース性が実現されます。
第 2 に、機能の選択をガイドするために、さまざまなパフォーマンス指標を使用できます。
第三に、より関心の高いグループに対するパフォーマンスの制約を含めることができます。
私たちの提案は、分類のパフォーマンス測定に関する柔軟性を統合しながら、競争力のある実行時間を生み出すスマートな検索につながります。
私たちの調査結果は、十分に参照されている特徴選択アプローチと比較した場合、提案されたスパース Na\’ive Bayes が、バランスの取れたデータセットの精度、スパース性、実行時間に関して競合する結果を得ることができることを示しています。
不均衡な (または異なる重要性を持つ) クラスを持つデータセットの場合、異なるクラスの分類率の間でより適切な妥協点が得られます。

要約(オリジナル)

The Na\’ive Bayes has proven to be a tractable and efficient method for classification in multivariate analysis. However, features are usually correlated, a fact that violates the Na\’ive Bayes’ assumption of conditional independence, and may deteriorate the method’s performance. Moreover, datasets are often characterized by a large number of features, which may complicate the interpretation of the results as well as slow down the method’s execution. In this paper we propose a sparse version of the Na\’ive Bayes classifier that is characterized by three properties. First, the sparsity is achieved taking into account the correlation structure of the covariates. Second, different performance measures can be used to guide the selection of features. Third, performance constraints on groups of higher interest can be included. Our proposal leads to a smart search, which yields competitive running times, whereas the flexibility in terms of performance measure for classification is integrated. Our findings show that, when compared against well-referenced feature selection approaches, the proposed sparse Na\’ive Bayes obtains competitive results regarding accuracy, sparsity and running times for balanced datasets. In the case of datasets with unbalanced (or with different importance) classes, a better compromise between classification rates for the different classes is achieved.

arxiv情報

著者 Rafael Blanquero,Emilio Carrizosa,Pepa Ramírez-Cobo,M. Remedios Sillero-Denamiel
発行日 2024-01-31 18:01:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク