Neighborhood Averaging for Improving Outlier Detectors

要約

同様のオブジェクトは同様の外れ値スコアを持つべきであると仮定します。
私たちの知る限り、既存のすべての外れ値検出器は、他のオブジェクトの外れ値スコアに関係なく、各オブジェクトの外れ値スコアを個別に計算します。
したがって、同様のオブジェクトが同様の外れ値スコアを持つことを保証するものではありません。
提案された仮説を検証するために、近隣平均化 (NA) と呼ばれる、外れ値検出器の外れ値スコア後処理手法を提案します。これは、オブジェクトとその近傍に注意を払い、元のスコアよりも類似した外れ値スコアを持つことを保証します。
任意の外れ値検出器からのオブジェクトとその外れ値スコアが与えられると、NA は、その外れ値スコアを k 個の最近傍のスコアと組み合わせることによって、その外れ値スコアを修正します。
よく知られている k 最近傍 (k-NN) を使用して、NA の有効性を示します。
実験結果は、9 つ​​の実世界のデータセットで評価された平均で、NA がテストされた 10 のベースライン検出器すべてを 13% (0.70 から 0.79 AUC) 改善することを示しています。
さらに、すでに k-NN に基づいている外れ値検出器も改善されています。
実験はまた、一部のアプリケーションでは、検出器が NA と併用されている場合、検出器の選択はもはや重要ではないことを示しています。これは、データ モデルが最も重要な要因であるという一般的に考えられている考えに挑戦をもたらす可能性があります。
再現性のために、www.outlierNet.com でコードを公開しています。

要約(オリジナル)

We hypothesize that similar objects should have similar outlier scores. To our knowledge, all existing outlier detectors calculate the outlier score for each object independently regardless of the outlier scores of the other objects. Therefore, they do not guarantee that similar objects have similar outlier scores. To verify our proposed hypothesis, we propose an outlier score post-processing technique for outlier detectors, called neighborhood averaging(NA), which pays attention to objects and their neighbors and guarantees them to have more similar outlier scores than their original scores. Given an object and its outlier score from any outlier detector, NA modifies its outlier score by combining it with its k nearest neighbors’ scores. We demonstrate the effectivity of NA by using the well-known k-nearest neighbors (k-NN). Experimental results show that NA improves all 10 tested baseline detectors by 13% (from 0.70 to 0.79 AUC) on average evaluated on nine real-world datasets. Moreover, even outlier detectors that are already based on k-NN are also improved. The experiments also show that in some applications, the choice of detector is no more significant when detectors are jointly used with NA, which may pose a challenge to the generally considered idea that the data model is the most important factor. We open our code on www.outlierNet.com for reproducibility.

arxiv情報

著者 Jiawei Yang,Susanto Rahardja,Pasi Franti
発行日 2023-03-17 13:44:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DS, cs.LG パーマリンク