要約
モデル、トレーニング データ、またはその組み合わせに基づいているかどうかに関係なく、分類器は (おそらく複雑な) 入力データを比較的少数の出力カテゴリの 1 つに配置します。
この論文では、隣接する入力の概念が存在するように、グラフである入力空間のコンテキストで、境界の構造 (隣接するものが異なるように分類される点) を研究します。科学的設定は次のとおりです。
次世代シーケンサーによって生成される DNA リードのモデルベースのナイーブ ベイズ分類器。
境界が大きく、構造が複雑であることを示します。
ある点の結果をその近傍の結果の分布と比較する、近傍類似性と呼ばれる新しい不確実性の尺度を作成します。
この尺度は、ベイズ分類器の 2 つの固有の不確実性尺度を追跡するだけでなく、固有の不確実性尺度を持たない分類器に対しても、計算コストをかけて実装できます。
要約(オリジナル)
Whether based on models, training data or a combination, classifiers place (possibly complex) input data into one of a relatively small number of output categories. In this paper, we study the structure of the boundary–those points for which a neighbor is classified differently–in the context of an input space that is a graph, so that there is a concept of neighboring inputs, The scientific setting is a model-based naive Bayes classifier for DNA reads produced by Next Generation Sequencers. We show that the boundary is both large and complicated in structure. We create a new measure of uncertainty, called Neighbor Similarity, that compares the result for a point to the distribution of results for its neighbors. This measure not only tracks two inherent uncertainty measures for the Bayes classifier, but also can be implemented, at a computational cost, for classifiers without inherent measures of uncertainty.
arxiv情報
著者 | Alan F. Karr,Zac Bowen,Adam A. Porter |
発行日 | 2024-02-09 16:48:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google