TimeSeriesBench: An Industrial-Grade Benchmark for Time Series Anomaly Detection Models

要約

現実世界のアプリケーション シナリオとスケールの急増により、時系列異常検出 (TSAD) は学術上および産業界から多大な関心を集めています。
しかし、既存のアルゴリズムは、現実世界の産業システムの実際のニーズと比較すると、トレーニング パラダイム、オンライン検出パラダイム、評価基準の点でギャップがあります。
まず、現在のアルゴリズムは通常、個別の時系列ごとに特定のモデルをトレーニングします。
数万の曲線を含む大規模なオンライン システムでは、これほど多数のモデルを維持することは現実的ではありません。
単一の統合モデルのみを使用して異常を検出する場合のパフォーマンスは不明のままです。
第 2 に、ほとんどの TSAD モデルは時系列の履歴部分でトレーニングされ、将来のセグメントでテストされます。
しかし、分散システムでは、システムの導入とアップグレードが頻繁に行われ、これまで見たことのない新しい時系列が毎日出現します。
現在の TSAD アルゴリズムで新しく受信した未確認の時系列をテストするパフォーマンスは不明のままです。
最後に、一部の論文では詳細な調査が行われていますが、オンライン評価プラットフォームがないため、「現段階で異常検出が最も得意なのは誰ですか?」などの質問に答えることができません。
このペーパーでは、リーダーボードとして継続的に維持している産業グレードのベンチマークである TimeSeriesBench を提案します。
このリーダーボードでは、さまざまなトレーニングとテストのパラダイム、評価指標、データセットを組み合わせた 168 を超える評価設定にわたって、既存のアルゴリズムのパフォーマンスを評価します。
結果の包括的な分析を通じて、異常検出アルゴリズムの将来の設計に関する推奨事項を提供します。
既存の公開データセットの既知の問題に対処するために、TimeSeriesBench とともに産業用データセットを公開します。
すべてのコード、データ、オンライン リーダーボードは公開されています。

要約(オリジナル)

Driven by the proliferation of real-world application scenarios and scales, time series anomaly detection (TSAD) has attracted considerable scholarly and industrial interest. However, existing algorithms exhibit a gap in terms of training paradigm, online detection paradigm, and evaluation criteria when compared to the actual needs of real-world industrial systems. Firstly, current algorithms typically train a specific model for each individual time series. In a large-scale online system with tens of thousands of curves, maintaining such a multitude of models is impractical. The performance of using merely one single unified model to detect anomalies remains unknown. Secondly, most TSAD models are trained on the historical part of a time series and are tested on its future segment. In distributed systems, however, there are frequent system deployments and upgrades, with new, previously unseen time series emerging daily. The performance of testing newly incoming unseen time series on current TSAD algorithms remains unknown. Lastly, although some papers have conducted detailed surveys, the absence of an online evaluation platform prevents answering questions like ‘Who is the best at anomaly detection at the current stage?’ In this paper, we propose TimeSeriesBench, an industrial-grade benchmark that we continuously maintain as a leaderboard. On this leaderboard, we assess the performance of existing algorithms across more than 168 evaluation settings combining different training and testing paradigms, evaluation metrics and datasets. Through our comprehensive analysis of the results, we provide recommendations for the future design of anomaly detection algorithms. To address known issues with existing public datasets, we release an industrial dataset to the public together with TimeSeriesBench. All code, data, and the online leaderboard have been made publicly available.

arxiv情報

著者 Haotian Si,Changhua Pei,Hang Cui,Jingwen Yang,Yongqian Sun,Shenglin Zhang,Jingjing Li,Haiming Zhang,Jing Han,Dan Pei,Jianhui Li,Gaogang Xie
発行日 2024-02-16 16:25:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク