要約
監視されていない機械学習方法は、大規模な異常を検索するのに適していますが、多くの最新のデータセットの高次元表現に苦労する可能性があるため、次元削減(DR)が最初に実行されることがよくあります。
この論文では、DRで作成された多様体の観点から、監視されていない異常検出(AD)を分析します。
理想的なイラスト「Finding Pegasus」と、ADメソッドとその結果を「マニホールド」と「マニホールドオフ」に分類する新しい正式なフレームワークを提示します。
これらの用語を定義し、それらがどのように異なるかを示します。
次に、この洞察を使用して、高DRを使用して状況で精度を犠牲にすることなく、ADリコールを大幅に向上させるADメソッドを組み合わせるアプローチを開発します。
MNISTデータでテストされた場合、ADメソッドを組み合わせるアプローチは、最高のスタンドアロンADメソッド(Isolation Forest)と組み合わせることと比較して、リコールを最大16%改善します。
要約(オリジナル)
Unsupervised machine learning methods are well suited to searching for anomalies at scale but can struggle with the high-dimensional representation of many modern datasets, hence dimensionality reduction (DR) is often performed first. In this paper we analyse unsupervised anomaly detection (AD) from the perspective of the manifold created in DR. We present an idealised illustration, ‘Finding Pegasus’, and a novel formal framework with which we categorise AD methods and their results into ‘on manifold’ and ‘off manifold’. We define these terms and show how they differ. We then use this insight to develop an approach of combining AD methods which significantly boosts AD recall without sacrificing precision in situations employing high DR. When tested on MNIST data, our approach of combining AD methods improves recall by as much as 16 percent compared with simply combining with the best standalone AD method (Isolation Forest), a result which shows great promise for its application to real-world data.
arxiv情報
著者 | R. P. Nathan,Nikolaos Nikolaou,Ofer Lahav |
発行日 | 2025-02-06 18:53:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google