Analysis of Diagnostics (Part I): Prevalence, Uncertainty Quantification, and Machine Learning

要約

診断テストは、分類理論のツールを研究および開発するための独自の環境を提供します。
このような状況では、有病率、つまり特定の状態にある個人の数の概念が、固有の関心量として、また分類精度を制御するパラメーターとしての両方で基本となります。
この原稿は、分類理論と普及率の間のより深い関係を研究する 2 部構成のシリーズの第 1 部であり、後者が特定のタイプの機械学習 (ML) に対するより完全な不確実性定量化 (UQ) 理論をどのように確立するかを示しています。
この分析は、有病率重み付け誤差を最小限に抑える一般分類器には、条件付き確率密度に依存するベイズ最適分類器と同じ確率情報が含まれていることを示す補題によって動機づけられます。
これは、相対確率レベルセット $B^\star (q)$ を研究することにつながります。これは、分類境界とクラスラベルの不確実性を定量化するための有用なツールの両方として再解釈されます。
これを実際に実現するために、有病率で重み付けされた経験的誤差を最小限に抑えて $B^\star (q)$ を推定する数値ホモトピー アルゴリズムも提案します。
この方法の成功と欠点により、レベル セットのプロパティを再検討する動機が与えられ、対応する分類器が数値を安定化し、ML の UQ への重要な拡張を示す有用な単調性プロパティに従っていることが推測されます。
全体を通して、私たちは合成データと研究専用の SARS-CoV-2 酵素免疫吸着法 (ELISA) アッセイに基づいてメソッドを検証します。

要約(オリジナル)

Diagnostic testing provides a unique setting for studying and developing tools in classification theory. In such contexts, the concept of prevalence, i.e. the number of individuals with a given condition, is fundamental, both as an inherent quantity of interest and as a parameter that controls classification accuracy. This manuscript is the first in a two-part series that studies deeper connections between classification theory and prevalence, showing how the latter establishes a more complete theory of uncertainty quantification (UQ) for certain types of machine learning (ML). We motivate this analysis via a lemma demonstrating that general classifiers minimizing a prevalence-weighted error contain the same probabilistic information as Bayes-optimal classifiers, which depend on conditional probability densities. This leads us to study relative probability level-sets $B^\star (q)$, which are reinterpreted as both classification boundaries and useful tools for quantifying uncertainty in class labels. To realize this in practice, we also propose a numerical, homotopy algorithm that estimates the $B^\star (q)$ by minimizing a prevalence-weighted empirical error. The successes and shortcomings of this method motivate us to revisit properties of the level sets, and we deduce the corresponding classifiers obey a useful monotonicity property that stabilizes the numerics and points to important extensions to UQ of ML. Throughout, we validate our methods in the context of synthetic data and a research-use-only SARS-CoV-2 enzyme-linked immunosorbent (ELISA) assay.

arxiv情報

著者 Paul N. Patrone,Raquel A. Binder,Catherine S. Forconi,Ann M. Moormann,Anthony J. Kearsley
発行日 2024-08-28 13:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, stat.ML パーマリンク