Raising the ClaSS of Streaming Time Series Segmentation


ストリーミング時系列セグメンテーション (STSS) のタスクは、観測されたプロセスまたはエンティティの状態に対応する連続した可変サイズのセグメントにストリームを分割することです。
STSS 用の新しく効率的かつ高精度のアルゴリズムである ClaSS を紹介します。
ClaSS は、自己監視時系列分類を使用して潜在的なパーティションの均一性を評価し、統計的テストを適用して重大な変化点 (CP) を検出します。
2 つの大規模なベンチマークと 6 つの現実世界のデータ アーカイブを使用した実験評価では、ClaSS が 8 つの最先端の競合他社よりも大幅に正確であることがわかりました。
その空間と時間の複雑さはセグメント サイズには依存せず、スライディング ウィンドウ サイズにおいてのみ線形です。
また、Apache Flink ストリーミング エンジンに対して 1 秒あたり 538 データ ポイントの平均スループットを備えたウィンドウ オペレーターとして ClaSS も提供します。


Ubiquitous sensors today emit high frequency streams of numerical measurements that reflect properties of human, animal, industrial, commercial, and natural processes. Shifts in such processes, e.g. caused by external events or internal state changes, manifest as changes in the recorded signals. The task of streaming time series segmentation (STSS) is to partition the stream into consecutive variable-sized segments that correspond to states of the observed processes or entities. The partition operation itself must in performance be able to cope with the input frequency of the signals. We introduce ClaSS, a novel, efficient, and highly accurate algorithm for STSS. ClaSS assesses the homogeneity of potential partitions using self-supervised time series classification and applies statistical tests to detect significant change points (CPs). In our experimental evaluation using two large benchmarks and six real-world data archives, we found ClaSS to be significantly more precise than eight state-of-the-art competitors. Its space and time complexity is independent of segment sizes and linear only in the sliding window size. We also provide ClaSS as a window operator with an average throughput of 538 data points per second for the Apache Flink streaming engine.


著者 Arik Ermshaus,Patrick Schäfer,Ulf Leser
発行日 2023-10-31 13:07:41+00:00
カテゴリー: cs.AI, cs.DB, cs.LG