要約
機械学習とデータ マイニングでは、外れ値はデータセットとは大きく異なるデータ ポイントであり、統計やモデルに偏りを引き起こす可能性のある無関係な情報が含まれることがよくあります。
したがって、外れ値に関する情報が限られているかまったくない場合、外れ値を検出するには教師なし手法が不可欠です。
Global-Local Outlier Scores based on Hierarchies (GLOSH) は、最先端の階層クラスタリング手法である HDBSCAN* 内の教師なし外れ値検出手法です。
GLOSH は、その密度を HDBSCAN* 階層内に存在する領域の最高密度と比較することにより、各データ ポイントの外れ値スコアを推定します。
GLOSH は、密度推定に影響を与える HDBSCAN* の minpts パラメーターの影響を受ける可能性があります。
データに関する知識が限られているため、1 つまたはいくつかの minpts 値が他の値よりも基になるクラスター構造をより適切に表す可能性があるため、事前に適切な minpts 値を選択することは困難です。
さらに、「潜在的な外れ値」を検索するプロセスでは、データセットに含まれる外れ値の数を定義する必要がありますが、これは非現実的であり、不明な場合が多いです。
この論文では、minpts 値全体の GLOSH スコアの範囲を活用して、GLOSH スコアがデータセットの残りの部分から外れ値を最もよく特定できる値を特定する、「最良の」 minpts 値を見つけるための教師なし戦略を提案します。
さらに、事前に値を定義することなく、点を内値と (潜在的な) 外れ値に分類するためのしきい値を推定する教師なし戦略を提案します。
私たちの実験は、私たちの戦略が、GLOSH を使用して最良または最良に近い外れ値検出結果をもたらす minpts 値としきい値を自動的に見つけることができることを示しています。
要約(オリジナル)
In machine learning and data mining, outliers are data points that significantly differ from the dataset and often introduce irrelevant information that can induce bias in its statistics and models. Therefore, unsupervised methods are crucial to detect outliers if there is limited or no information about them. Global-Local Outlier Scores based on Hierarchies (GLOSH) is an unsupervised outlier detection method within HDBSCAN*, a state-of-the-art hierarchical clustering method. GLOSH estimates outlier scores for each data point by comparing its density to the highest density of the region they reside in the HDBSCAN* hierarchy. GLOSH may be sensitive to HDBSCAN*’s minpts parameter that influences density estimation. With limited knowledge about the data, choosing an appropriate minpts value beforehand is challenging as one or some minpts values may better represent the underlying cluster structure than others. Additionally, in the process of searching for “potential outliers”, one has to define the number of outliers n a dataset has, which may be impractical and is often unknown. In this paper, we propose an unsupervised strategy to find the “best” minpts value, leveraging the range of GLOSH scores across minpts values to identify the value for which GLOSH scores can best identify outliers from the rest of the dataset. Moreover, we propose an unsupervised strategy to estimate a threshold for classifying points into inliers and (potential) outliers without the need to pre-define any value. Our experiments show that our strategies can automatically find the minpts value and threshold that yield the best or near best outlier detection results using GLOSH.
arxiv情報
著者 | Kushankur Ghosh,Murilo Coelho Naldi,Jörg Sander,Euijin Choo |
発行日 | 2024-11-13 18:48:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google