A Generic Machine Learning Framework for Fully-Unsupervised Anomaly Detection with Contaminated Data

要約

異常検出 (AD) タスクは、さまざまなドメインやアプリケーションで機械学習アルゴリズムを使用して解決されています。
これらのアルゴリズムの大部分は、正規データを使用して残差ベースのモデルをトレーニングし、学習された正規領域との相違に基づいて未確認のサンプルに異常スコアを割り当てます。
これらのアプローチの基本的な前提は、異常のないデータがトレーニングに利用できるということです。
しかし、これは実際の運用環境では当てはまらないことが多く、トレーニング データが未知の部分の異常サンプルで汚染されている可能性があります。
汚染されたデータを使用したトレーニングは、必然的に残差ベースのアルゴリズムの AD パフォーマンスの低下につながります。
この論文では、AD タスクの汚染されたトレーニング データを完全に教師なしで改良するためのフレームワークを紹介します。
このフレームワークは汎用的なもので、残差ベースの機械学習モデルに適用できます。
さまざまなアプリケーション分野からの多変量時系列マシン データの 2 つの公開データセットへのフレームワークの適用を示します。
精製を行わずに汚染されたデータを使用してトレーニングする単純なアプローチよりも明らかに優れていることを示します。
さらに、異常のないデータがトレーニングに利用できる理想的で非現実的なリファレンスと比較します。
この方法は、特定のモデルの一般化能力に対する個々のサンプルの寄与を評価し、異常の寄与を正常なサンプルの寄与と対比することに基づいています。
結果として、提案されたアプローチは、通常のサンプルのみを使用したトレーニングと同等であり、多くの場合それよりも優れています。

要約(オリジナル)

Anomaly detection (AD) tasks have been solved using machine learning algorithms in various domains and applications. The great majority of these algorithms use normal data to train a residual-based model and assign anomaly scores to unseen samples based on their dissimilarity with the learned normal regime. The underlying assumption of these approaches is that anomaly-free data is available for training. This is, however, often not the case in real-world operational settings, where the training data may be contaminated with an unknown fraction of abnormal samples. Training with contaminated data, in turn, inevitably leads to a deteriorated AD performance of the residual-based algorithms. In this paper we introduce a framework for a fully unsupervised refinement of contaminated training data for AD tasks. The framework is generic and can be applied to any residual-based machine learning model. We demonstrate the application of the framework to two public datasets of multivariate time series machine data from different application fields. We show its clear superiority over the naive approach of training with contaminated data without refinement. Moreover, we compare it to the ideal, unrealistic reference in which anomaly-free data would be available for training. The method is based on evaluating the contribution of individual samples to the generalization ability of a given model, and contrasting the contribution of anomalies with the one of normal samples. As a result, the proposed approach is comparable to, and often outperforms training with normal samples only.

arxiv情報

著者 Markus Ulmer,Jannik Zgraggen,Lilach Goren Huber
発行日 2024-01-31 14:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク