要約
TKDE 2012でLiu、Ting、およびZhouによって提案された孤立林(Iforest)は、監視されていない異常検出のための顕著なツールになりました。
しかし、TKDE 2021に掲載されたHariri、Kind、およびBrunnerによる最近の研究により、Iforestの問題が明らかになりました。
彼らは、通常のクラスターと誤認される可能性のある軸に並べられたゴーストクラスターの存在を特定し、偏った異常スコアと不正確な予測につながりました。
それに応じて、彼らは拡張された分離林(EIF)を開発しました。これは、Iforestが導入したゴーストクラスターを排除することにより、これらの問題を効果的に解決します。
この強化により、異常スコアの一貫性が向上し、パフォーマンスが優れています。
以前に見落とされていた問題を明らかにしました。これは、データポイントの通常のクラスター間のゴースト間クラスターに対して脆弱であることを示しています。
このホワイトペーパーでは、回転した分離林(RIF)アルゴリズムを紹介します。このアルゴリズムは、IFORESTで観察された軸に合ったゴーストクラスターとEIFで見られるゴーストインタークラスターの両方に効果的に対処します。
RIFは、Iforest構造に供給する前に(ランダム回転行列とQR分解を使用して)データセットをランダムに回転させることでこれを達成し、それによりデータセットの変動を増加させ、ゴーストクラスターを排除します。
私たちの実験は、合成データセットと実際のデータセットの両方から得られた結果によって証明されるように、RIFアルゴリズムがIforestとEIFを上回ることを決定的に実証しています。
要約(オリジナル)
The Isolation Forest (iForest), proposed by Liu, Ting, and Zhou at TKDE 2012, has become a prominent tool for unsupervised anomaly detection. However, recent research by Hariri, Kind, and Brunner, published in TKDE 2021, has revealed issues with iForest. They identified the presence of axis-aligned ghost clusters that can be misidentified as normal clusters, leading to biased anomaly scores and inaccurate predictions. In response, they developed the Extended Isolation Forest (EIF), which effectively solves these issues by eliminating the ghost clusters introduced by iForest. This enhancement results in improved consistency of anomaly scores and superior performance. We reveal a previously overlooked problem in the Extended Isolation Forest (EIF), showing that it is vulnerable to ghost inter-clusters between normal clusters of data points. In this paper, we introduce the Rotated Isolation Forest (RIF) algorithm which effectively addresses both the axis-aligned ghost clusters observed in iForest and the ghost inter-clusters seen in EIF. RIF accomplishes this by randomly rotating the dataset (using random rotation matrices and QR decomposition) before feeding it into the iForest construction, thereby increasing dataset variation and eliminating ghost clusters. Our experiments conclusively demonstrate that the RIF algorithm outperforms iForest and EIF, as evidenced by the results obtained from both synthetic datasets and real-world datasets.
arxiv情報
著者 | Vahideh Monemizadeh,Kourosh Kiani |
発行日 | 2025-01-29 17:26:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google