要約
カウント数の少ない時系列は、多様なデータ タイプをキャプチャおよび監視する大規模なオンライン プラットフォームでよく見られる、まばらなイベントまたは断続的なイベントを表します。
カウント数の少ない時系列をモデル化する場合、特に低い信号対雑音比 (異常の兆候が検出できないことが証明されている場合)、および不均一なパフォーマンス (平均メトリクスが局所的な動作を表していない場合) など、いくつかの明確な課題が表面化します。
現在、時系列異常検出コミュニティには、これらの設定の異常をモデル化して確実に検出するための明示的なツールとプロセスが不足しています。
私たちは、異常なセグメントを含むカウント数の少ない時系列で構成されるベンチマーク データセットを作成するための新しい生成手順を導入することで、このギャップに対処します。
私たちの研究は、理論的分析と実証的分析を組み合わせて、広く使用されているアルゴリズムが正常セグメントと異常セグメント間の分布の重複にどのように苦戦しているかを説明しています。
この欠点を軽減するために、調査結果を活用して、異常スコアの平滑化がどのように一貫してパフォーマンスを向上させるかを実証します。
私たちの分析と推奨事項の実用性は、小売店の販売データを含む現実世界のデータセットで検証されています。
要約(オリジナル)
Low-count time series describe sparse or intermittent events, which are prevalent in large-scale online platforms that capture and monitor diverse data types. Several distinct challenges surface when modelling low-count time series, particularly low signal-to-noise ratios (when anomaly signatures are provably undetectable), and non-uniform performance (when average metrics are not representative of local behaviour). The time series anomaly detection community currently lacks explicit tooling and processes to model and reliably detect anomalies in these settings. We address this gap by introducing a novel generative procedure for creating benchmark datasets comprising of low-count time series with anomalous segments. Via a mixture of theoretical and empirical analysis, our work explains how widely-used algorithms struggle with the distribution overlap between normal and anomalous segments. In order to mitigate this shortcoming, we then leverage our findings to demonstrate how anomaly score smoothing consistently improves performance. The practical utility of our analysis and recommendation is validated on a real-world dataset containing sales data for retail stores.
arxiv情報
著者 | Philipp Renz,Kurt Cutajar,Niall Twomey,Gavin K. C. Cheung,Hanting Xie |
発行日 | 2023-08-24 16:58:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google