AnoShift: A Distribution Shift Benchmark for Unsupervised Anomaly Detection

要約

タイトル:AnoShift:非監視異常検出のための分布シフトベンチマーク

要約:

– 機械学習(ML)におけるデータの分布シフト分析は、MLモデルの汎化特性を研究するための適切なシナリオを提供する新しいベンチマークが出現する方向に向かっている。既存のベンチマークは、監視学習に焦点を当てており、非監視学習にはない。それゆえ、私たちは、京都-2006+、ネットワーク侵入検知のためのトラフィックデータセットを使用した、時間経過に伴うデータシフトを持つ非監視異常検出ベンチマークを紹介する。このタイプのデータは、入力分布をシフトする前提条件を満たしている。10年の長い時間スパンであり、時間とともに自然に変化が起こる(例:ユーザーが行動パターンを変更することや、ソフトウェアの更新)。
– 私たちは、まず基本的な機能ごとの分析、t-SNE、およびオプティマルトランスポートアプローチを使用して、一般的な分布の距離を測定し、データの非定常性を強調する。次に、IID、NEAR、およびFARのテストスプリットにデータを分割するAnoShiftプロトコルを提案する。古典的なアプローチからディープラーニングまで、さまざまなモデルによる性能低下を検証する。最後に、分布シフト問題に対処することで、独立同分布データを仮定するクラシックトレーニングに比べ、性能が向上することを示し(平均で3%まで)、AnoShiftはこの問題に適したモデルである。データセットとコードは、https://github.com/bit-ml/AnoShift/ から入手できる。

要約(オリジナル)

Analyzing the distribution shift of data is a growing research direction in nowadays Machine Learning (ML), leading to emerging new benchmarks that focus on providing a suitable scenario for studying the generalization properties of ML models. The existing benchmarks are focused on supervised learning, and to the best of our knowledge, there is none for unsupervised learning. Therefore, we introduce an unsupervised anomaly detection benchmark with data that shifts over time, built over Kyoto-2006+, a traffic dataset for network intrusion detection. This type of data meets the premise of shifting the input distribution: it covers a large time span ($10$ years), with naturally occurring changes over time (eg users modifying their behavior patterns, and software updates). We first highlight the non-stationary nature of the data, using a basic per-feature analysis, t-SNE, and an Optimal Transport approach for measuring the overall distribution distances between years. Next, we propose AnoShift, a protocol splitting the data in IID, NEAR, and FAR testing splits. We validate the performance degradation over time with diverse models, ranging from classical approaches to deep learning. Finally, we show that by acknowledging the distribution shift problem and properly addressing it, the performance can be improved compared to the classical training which assumes independent and identically distributed data (on average, by up to $3\%$ for our approach). Dataset and code are available at https://github.com/bit-ml/AnoShift/.

arxiv情報

著者 Marius Dragoi,Elena Burceanu,Emanuela Haller,Andrei Manolache,Florin Brad
発行日 2023-04-03 16:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク