A method for classification of data with uncertainty using hypothesis testing

要約

バイナリ分類は、2つの異なるクラスのいずれかにデータを分類するタスクです。
さまざまな分野で広く利用されています。
ただし、従来の分類器は、2つのクラス分布のオーバーラップ領域に属するデータまたは分布外のデータ(分散データ外データ)に属するデータに対して自信過剰予測を行う傾向があります。
したがって、分類結果が重大な結果をもたらす可能性のある高リスクフィールドには、従来の分類器を適用しないでください。
この問題に対処するためには、不確実性を定量化し、それを考慮した意思決定アプローチを採用する必要があります。
この目的のために多くの方法が提案されています。
ただし、これらのメソッドを実装するには、再サンプリングを実行し、モデルの構造やパフォーマンスの改善、分類子のしきい値の最適化が必要です。
2種類の仮説テストを使用して、新しい意思決定アプローチを提案します。
この方法は、2つのクラス分布の重複領域に属する曖昧なデータと、トレーニングデータ分布に含まれていない分散型データを検出することができます。
さらに、訓練されたモデルを介して得られたトレーニングデータから導出された特徴値の経験的分布を使用して、不確実性を定量化します。
分類のしきい値は、$ \ alpha $ -quantileおよび($ 1- \ alpha $) – 分位によって決定されます。

要約(オリジナル)

Binary classification is a task that involves the classification of data into one of two distinct classes. It is widely utilized in various fields. However, conventional classifiers tend to make overconfident predictions for data that belong to overlapping regions of the two class distributions or for data outside the distributions (out-of-distribution data). Therefore, conventional classifiers should not be applied in high-risk fields where classification results can have significant consequences. In order to address this issue, it is necessary to quantify uncertainty and adopt decision-making approaches that take it into account. Many methods have been proposed for this purpose; however, implementing these methods often requires performing resampling, improving the structure or performance of models, and optimizing the thresholds of classifiers. We propose a new decision-making approach using two types of hypothesis testing. This method is capable of detecting ambiguous data that belong to the overlapping regions of two class distributions, as well as out-of-distribution data that are not included in the training data distribution. In addition, we quantify uncertainty using the empirical distribution of feature values derived from the training data obtained through the trained model. The classification threshold is determined by the $\alpha$-quantile and ($1-\alpha$)-quantile, where the significance level $\alpha$ is set according to each specific situation.

arxiv情報

著者 Shoma Yokura,Akihisa Ichiki
発行日 2025-02-12 17:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク