要約
異常検出 (AD) は、サイバーセキュリティにおける分類や侵入/脅威の検出など、AI アプリケーションにおいて極めて重要な役割を果たします。
しかし、既存の手法のほとんどは、非独立で同一に分散された (非 IID) データによって引き起こされる特徴サブセット間の異質性という課題に直面しています。
私たちはこれに対処するために、Multiple-Input Auto-Encoder for AD (MIEAD) と呼ばれる新しいニューラル ネットワーク モデルを提案します。
MIEAD は、データ サンプルの各特徴サブセットに異常スコアを割り当て、異常である可能性を示します。
これは、サブエンコーダの再構成エラーを異常スコアとして使用することによって行われます。
次に、すべてのサブエンコーダーが教師なし学習を使用して同時にトレーニングされ、特徴サブセットの異常スコアが決定されます。
MIEAD の最終的な AUC はサブデータセットごとに計算され、サブデータセット間で得られた最大の AUC が選択されます。
正常データの分布のモデリングを利用して生成モデルの異常を特定するために、Multiple-Input variational Auto-Encoder (MIVAE) と呼ばれる新しいニューラル ネットワーク アーキテクチャ/モデルを開発しました。
MIVAE は、潜在空間内の正規データの分布を学習する前に、サブエンコーダーを通じて特徴サブセットを処理できます。
これにより、MIVAE は学習された分布から逸脱した異常を特定できるようになります。
我々は理論的に、提案されたMIVAEによって得られた正常サンプルと異常の間の平均異常スコアの差が変分自動エンコーダ(VAEAD)よりも大きく、その結果MIVAEのAUCが高くなるということを証明しました。
8 つの現実世界の異常データセットに対する広範な実験により、MIEAD と MIVAE が従来の方法や最先端の教師なしモデルよりも優れたパフォーマンスを示し、AUC スコアの点で最大 6% 向上しました。
あるいは、MIEAD および MIVAE は、変動係数 (CV) スコアに基づいて不均一性の低い特徴サブセットに適用すると、高い AUC を示します。
要約(オリジナル)
Anomaly detection (AD) plays a pivotal role in AI applications, e.g., in classification, and intrusion/threat detection in cybersecurity. However, most existing methods face challenges of heterogeneity amongst feature subsets posed by non-independent and identically distributed (non-IID) data. We propose a novel neural network model called Multiple-Input Auto-Encoder for AD (MIAEAD) to address this. MIAEAD assigns an anomaly score to each feature subset of a data sample to indicate its likelihood of being an anomaly. This is done by using the reconstruction error of its sub-encoder as the anomaly score. All sub-encoders are then simultaneously trained using unsupervised learning to determine the anomaly scores of feature subsets. The final AUC of MIAEAD is calculated for each sub-dataset, and the maximum AUC obtained among the sub-datasets is selected. To leverage the modelling of the distribution of normal data to identify anomalies of the generative models, we develop a novel neural network architecture/model called Multiple-Input Variational Auto-Encoder (MIVAE). MIVAE can process feature subsets through its sub-encoders before learning distribution of normal data in the latent space. This allows MIVAE to identify anomalies that deviate from the learned distribution. We theoretically prove that the difference in the average anomaly score between normal samples and anomalies obtained by the proposed MIVAE is greater than that of the Variational Auto-Encoder (VAEAD), resulting in a higher AUC for MIVAE. Extensive experiments on eight real-world anomaly datasets demonstrate the superior performance of MIAEAD and MIVAE over conventional methods and the state-of-the-art unsupervised models, by up to 6% in terms of AUC score. Alternatively, MIAEAD and MIVAE have a high AUC when applied to feature subsets with low heterogeneity based on the coefficient of variation (CV) score.
arxiv情報
著者 | Phai Vu Dinh,Diep N. Nguyen,Dinh Thai Hoang,Quang Uy Nguyen,Eryk Dutkiewicz |
発行日 | 2025-01-14 14:25:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google