NNG-Mix: Improving Semi-supervised Anomaly Detection with Pseudo-anomaly Generation

要約

異常検出 (AD) は、複雑なシステムにおけるまれで、多くの場合重大なイベントを特定し、ネットワーク侵入検出、金融詐欺検出、インフラストラクチャや産業システムの障害検出などの分野でのアプリケーションを見つけるために不可欠です。
AD は通常、ラベル アノテーションのコストが高いため教師なし学習タスクとして扱われますが、半教師あり異常検出の場合と同様に、ドメインの専門家からラベル付きの異常サンプルの少数のセットにアクセスすることを想定する方がより現実的です。
半教師ありおよび教師ありのアプローチでは、このようなラベル付きデータを活用でき、パフォーマンスが向上します。
この論文では、AD に対する新しい半教師ありまたは教師ありのアプローチを提案するのではなく、限られたラベル付き異常と大量のラベルなしデータに基づいて追加の疑似異常を生成するための新しいアルゴリズムを紹介します。
これは、新しい異常の検出を容易にするための強化として機能します。
私たちが提案するアルゴリズムは、Nearest Neighbor Gaussian Mixup (NNG-Mix) と呼ばれ、ラベル付きデータとラベルなしデータの両方からの情報を効率的に統合して、擬似異常を生成します。
この新しいアルゴリズムのパフォーマンスを、ミックスアップやカットアウトなどの一般的に適用される拡張手法と比較します。
NNG-Mix は、生成された擬似異常とともに元のトレーニング データで既存のさまざまな半教師ありおよび教師あり異常検出アルゴリズムをトレーニングすることによって評価されます。
さまざまなデータ型を反映する ADBench の 57 のベンチマーク データセットに対する広範な実験を通じて、NNG-Mix が他のデータ拡張手法よりも優れていることを実証しました。
元のトレーニング データのみでトレーニングされたベースラインと比較して、パフォーマンスが大幅に向上します。
特に、NNG-Mix は、ADBench の Classical、CV、および NLP データセットで最大 16.4%、8.8%、および 8.0% の改善をもたらします。
私たちのソースコードは https://github.com/donghao51/NNG-Mix で入手できます。

要約(オリジナル)

Anomaly detection (AD) is essential in identifying rare and often critical events in complex systems, finding applications in fields such as network intrusion detection, financial fraud detection, and fault detection in infrastructure and industrial systems. While AD is typically treated as an unsupervised learning task due to the high cost of label annotation, it is more practical to assume access to a small set of labeled anomaly samples from domain experts, as is the case for semi-supervised anomaly detection. Semi-supervised and supervised approaches can leverage such labeled data, resulting in improved performance. In this paper, rather than proposing a new semi-supervised or supervised approach for AD, we introduce a novel algorithm for generating additional pseudo-anomalies on the basis of the limited labeled anomalies and a large volume of unlabeled data. This serves as an augmentation to facilitate the detection of new anomalies. Our proposed algorithm, named Nearest Neighbor Gaussian Mixup (NNG-Mix), efficiently integrates information from both labeled and unlabeled data to generate pseudo-anomalies. We compare the performance of this novel algorithm with commonly applied augmentation techniques, such as Mixup and Cutout. We evaluate NNG-Mix by training various existing semi-supervised and supervised anomaly detection algorithms on the original training data along with the generated pseudo-anomalies. Through extensive experiments on 57 benchmark datasets in ADBench, reflecting different data types, we demonstrate that NNG-Mix outperforms other data augmentation methods. It yields significant performance improvements compared to the baselines trained exclusively on the original training data. Notably, NNG-Mix yields up to 16.4%, 8.8%, and 8.0% improvements on Classical, CV, and NLP datasets in ADBench. Our source code is available at https://github.com/donghao51/NNG-Mix.

arxiv情報

著者 Hao Dong,Gaëtan Frusque,Yue Zhao,Eleni Chatzi,Olga Fink
発行日 2024-06-11 15:39:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク