要約
外れ値検出アルゴリズムは通常、データセット内の各観測値に外れ値スコアを割り当て、観測値がどの程度外れ値であるかを示します。
ただし、これらのスコアはアルゴリズム間で比較できないことが多く、人間が解釈するのが難しい場合があります。
統計的スケーリングは、グラウンド トゥルース ラベルを使用せずに外れ値スコアを外れ値確率に変換することでこの問題に対処し、それによってアルゴリズム間の解釈可能性と比較可能性を向上させます。
ただし、この変換の品質は外れ値と内値で異なる場合があります。
医療、金融、エンジニアリングなど、特に重要なシナリオで異常値を見逃すと、コストがかかったり、危険になったりする可能性があります。
したがって、外れ値に対する良好な確率を確保することが不可欠です。
この論文は、文献で一般的に使用されている統計的スケーリングでは、外れ値についても内値と同様に良好な確率を生成しないと主張しています。
したがって、ロバストな推定量を使用して外れ値の確率を改善する、ロバストな統計スケーリングを提案します。
現実世界のデータセットおよび外れ値検出アルゴリズムの他の外れ値スコア変換に対して、この方法のいくつかの変形を評価し、外れ値の確率を向上させることができます。
要約(オリジナル)
Outlier detection algorithms typically assign an outlier score to each observation in a dataset, indicating the degree to which an observation is an outlier. However, these scores are often not comparable across algorithms and can be difficult for humans to interpret. Statistical scaling addresses this problem by transforming outlier scores into outlier probabilities without using ground-truth labels, thereby improving interpretability and comparability across algorithms. However, the quality of this transformation can be different for outliers and inliers. Missing outliers in scenarios where they are of particular interest – such as healthcare, finance, or engineering – can be costly or dangerous. Thus, ensuring good probabilities for outliers is essential. This paper argues that statistical scaling, as commonly used in the literature, does not produce equally good probabilities for outliers as for inliers. Therefore, we propose robust statistical scaling, which uses robust estimators to improve the probabilities for outliers. We evaluate several variants of our method against other outlier score transformations for real-world datasets and outlier detection algorithms, where it can improve the probabilities for outliers.
arxiv情報
著者 | Philipp Röchner,Henrique O. Marques,Ricardo J. G. B. Campello,Arthur Zimek,Franz Rothlauf |
発行日 | 2024-08-28 15:44:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google