Comparative Study of Neighbor-based Methods for Local Outlier Detection

要約

近傍ベースの方法は、サンプルとその近傍のコンパクトさに基づいてサンプルの異常の程度を推測することを目的とした外れ値検出問題を処理するための強力なツールとなっています。
ただし、既存の方法は一般に、データセット内の外れ値を特定するためのさまざまなプロセスの設計に焦点を当てており、近隣のさまざまなタイプの外れ値検出への寄与については十分に議論されていません。
この目的を達成するために、この論文では既存の外れ値検出アルゴリズムにおける近傍を研究し、情報、近傍、および方法論の 3 レベルのコンポーネントを使用してハイブリッド手法を定義する分類法を導入します。
この分類法は、この分類法のさまざまなコンポーネントを組み合わせることで、新しい近傍ベースの外れ値検出方法を提案できるパラダイムとして機能します。
パフォーマンスの比較とケーススタディの観点から、合成データセットと実世界のデータセットに対して多数の比較実験が実施されました。その結果、逆 K 最近傍ベースの手法が有望なパフォーマンスを実現し、動的選択手法が高環境での作業に適していることが示されました。
次元空間。
特に、この分類法からコンポーネントを合理的に選択すると、既存の方法よりも優れたアルゴリズムが作成される可能性があることが検証されています。

要約(オリジナル)

The neighbor-based method has become a powerful tool to handle the outlier detection problem, which aims to infer the abnormal degree of the sample based on the compactness of the sample and its neighbors. However, the existing methods commonly focus on designing different processes to locate outliers in the dataset, while the contributions of different types neighbors to outlier detection has not been well discussed. To this end, this paper studies the neighbor in the existing outlier detection algorithms and a taxonomy is introduced, which uses the three-level components of information, neighbor and methodology to define hybrid methods. This taxonomy can serve as a paradigm where a novel neighbor-based outlier detection method can be proposed by combining different components in this taxonomy. A large number of comparative experiments were conducted on synthetic and real-world datasets in terms of performance comparison and case study, and the results show that reverse K-nearest neighbor based methods achieve promising performance and dynamic selection method is suitable for working in high-dimensional space. Notably, it is verified that rationally selecting components from this taxonomy may create an algorithms superior to existing methods.

arxiv情報

著者 Zhuang Qi,Junlin Zhang,Xiaming Chen,Xin Qi
発行日 2024-05-29 16:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク