Distribution and volume based scoring for Isolation Forests

要約

私たちは、異常値と外れ値の検出のために Isolation Forest メソッドに 2 つの貢献を行っています。
最初の貢献は、ランダム ツリー推定器全体のスコアを集計するために使用されるスコア関数の情報理論に基づいた一般化です。
この一般化により、ツリー全体のアンサンブル平均だけでなく、分布全体を考慮できるようになります。
2 番目の貢献は、個々のツリー推定器のレベルでの代替スコアリング関数です。この関数では、分離フォレストの深さベースのスコアリングを、分離ツリーのリーフ ノードに関連付けられたハイパー ボリュームに基づくスコアリングに置き換えます。
私たちは、生成されたデータに対してこれらの手法の両方を使用することを奨励し、最近の徹底的な「ADBench」ベンチマークからの 34 のデータセットでも評価しました。その結果、一部のデータセットでは両方のバリアントで標準分離フォレストと比較して大幅な改善が見られ、全体の平均で改善が見られました。
2 つのバリアントのいずれかのすべてのデータセット。
結果を再現するコードは、提出物の一部として利用可能です。

要約(オリジナル)

We make two contributions to the Isolation Forest method for anomaly and outlier detection. The first contribution is an information-theoretically motivated generalisation of the score function that is used to aggregate the scores across random tree estimators. This generalisation allows one to take into account not just the ensemble average across trees but instead the whole distribution. The second contribution is an alternative scoring function at the level of the individual tree estimator, in which we replace the depth-based scoring of the Isolation Forest with one based on hyper-volumes associated to an isolation tree’s leaf nodes. We motivate the use of both of these methods on generated data and also evaluate them on 34 datasets from the recent and exhaustive “ADBench” benchmark, finding significant improvement over the standard isolation forest for both variants on some datasets and improvement on average across all datasets for one of the two variants. The code to reproduce our results is made available as part of the submission.

arxiv情報

著者 Hichem Dhouib,Alissa Wilms,Paul Boes
発行日 2023-09-20 16:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク