Structure of Classifier Boundaries: Case Study for a Naive Bayes Classifier

要約

モデル、トレーニング データ、またはその組み合わせに基づいているかどうかに関係なく、分類器は (おそらく複雑な) 入力データを比較的少数の出力カテゴリの 1 つに配置します。
この論文では、隣接する入力の概念が存在するように、グラフである入力空間のコンテキストで、境界の構造 (隣接するものが異なるように分類される点) を研究します。科学的設定は次のとおりです。
次世代シーケンサーによって生成される DNA リードのモデルベースのナイーブ ベイズ分類器。
境界が大きく、構造が複雑であることを示します。
ある点の結果をその近傍の結果の分布と比較する、近傍類似性と呼ばれる新しい不確実性の尺度を作成します。
この尺度は、ベイズ分類器の 2 つの固有の不確実性尺度を追跡するだけでなく、固有の不確実性尺度を持たない分類器に対しても、計算コストをかけて実装できます。

要約(オリジナル)

Whether based on models, training data or a combination, classifiers place (possibly complex) input data into one of a relatively small number of output categories. In this paper, we study the structure of the boundary–those points for which a neighbor is classified differently–in the context of an input space that is a graph, so that there is a concept of neighboring inputs, The scientific setting is a model-based naive Bayes classifier for DNA reads produced by Next Generation Sequencers. We show that the boundary is both large and complicated in structure. We create a new measure of uncertainty, called Neighbor Similarity, that compares the result for a point to the distribution of results for its neighbors. This measure not only tracks two inherent uncertainty measures for the Bayes classifier, but also can be implemented, at a computational cost, for classifiers without inherent measures of uncertainty.

arxiv情報

著者 Alan F. Karr,Zac Bowen,Adam A. Porter
発行日 2024-02-09 16:48:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク