UADB: Unsupervised Anomaly Detection Booster

要約

教師なし異常検出 (UAD) は、現実世界で幅広く応用されるため、データ マイニングの重要な問題となります。
監視信号が完全に存在しないため、UAD メソッドは異常パターン (分散/まばら/密集など) に関する暗黙の仮定に依存して異常を検出します。
ただし、実際のデータは複雑で、ドメインごとに大きく異なります。
このような複雑さを説明し、すべてのシナリオに有効な単一の仮定はありません。
これは、UAD メソッドが万能ではないことを示す最近の研究でも確認されています。
上記の観察に基づいて、魔法のような普遍的な勝者の仮定を探す代わりに、あらゆる UAD モデルにさまざまなデータへの適応性を与える一般的な UAD Booster (UADB) を設計することを目指しています。
既存の UAD 手法で採用されている異種モデルの構造と仮定を考慮すると、これは困難なタスクです。
これを達成するために、UAD 問題を深く掘り下げ、通常のデータと比較して、異常は (i) 特徴空間に明確な構造/パターンが欠けているため、(ii) 適切な仮定がなければモデルによる学習が難しく、最終的には
(iii) 異なる学習者間の大きな差異。
これらの発見を踏まえて、(i) データの仮定を持たない模倣学習器 (ブースター) にソース UAD モデルの知識を抽出し、(ii) それらの間の差異を利用して自動修正を実行することを提案します。
iii) オリジナルの UAD モデルよりもブースターを改良します。
汎用近似器としての強力な表現力と、柔軟な事後調整を実行できる機能を備えたニューラル ネットワークをブースターとして使用します。
UADB は、異種 UAD モデルを統合された方法で強化できるモデルに依存しないフレームワークであることに注意してください。
80 を超える表形式データセットに対する広範な実験により、UADB の有効性が実証されました。

要約(オリジナル)

Unsupervised Anomaly Detection (UAD) is a key data mining problem owing to its wide real-world applications. Due to the complete absence of supervision signals, UAD methods rely on implicit assumptions about anomalous patterns (e.g., scattered/sparsely/densely clustered) to detect anomalies. However, real-world data are complex and vary significantly across different domains. No single assumption can describe such complexity and be valid in all scenarios. This is also confirmed by recent research that shows no UAD method is omnipotent. Based on above observations, instead of searching for a magic universal winner assumption, we seek to design a general UAD Booster (UADB) that empowers any UAD models with adaptability to different data. This is a challenging task given the heterogeneous model structures and assumptions adopted by existing UAD methods. To achieve this, we dive deep into the UAD problem and find that compared to normal data, anomalies (i) lack clear structure/pattern in feature space, thus (ii) harder to learn by model without a suitable assumption, and finally, leads to (iii) high variance between different learners. In light of these findings, we propose to (i) distill the knowledge of the source UAD model to an imitation learner (booster) that holds no data assumption, then (ii) exploit the variance between them to perform automatic correction, and thus (iii) improve the booster over the original UAD model. We use a neural network as the booster for its strong expressive power as a universal approximator and ability to perform flexible post-hoc tuning. Note that UADB is a model-agnostic framework that can enhance heterogeneous UAD models in a unified way. Extensive experiments on over 80 tabular datasets demonstrate the effectiveness of UADB.

arxiv情報

著者 Hangting Ye,Zhining Liu,Xinyi Shen,Wei Cao,Shun Zheng,Xiaofan Gui,Huishuai Zhang,Yi Chang,Jiang Bian
発行日 2023-12-26 15:34:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク