Fast and Multi-aspect Mining of Complex Time-stamped Event Streams


オンライン ショッピング ログ (アイテム、価格、ブランド、時間) やローカル モビリティ アクティビティ (ピックアップとドロップオフの場所、時間) など、複数の属性を持つ、時間とともに変化するイベントの巨大なオンライン ストリームを考えると、どのように
大規模で動的な高次テンソル ストリームを要約できますか?
私たちの答えは、「レジーム」と「コンポーネント」の 2 種類のパターンに焦点を当てることです。そのために、高次テンソル ストリームに対する効率的で効果的な方法である CubeScope を提示します。
具体的には、突然の不連続性を識別し、明確な動的パターン「レジーム」(平日/週末/休日のパターンなど) を認識します。
各レジームでは、すべての属性 (アイテム、価格、ブランド、時間など) の多方向要約も実行し、潜在グループ (アイテム/ブランド グループなど) とそれらの関係を表す隠れた「コンポーネント」を発見します。
簡潔でありながら効果的な要約機能により、CubeScope は異常の突然の出現を検出し、実際に発生する異常の種類を特定することもできます。
(b) 一般: データ圧縮、パターン発見、およびさまざまなタイプのテンソル ストリームでの異常検出への適用を成功させるために実用的です。
(c) スケーラブル: 私たちのアルゴリズムは、データ ストリームの長さとその次元数に依存しません。
実際のデータセットでの広範な実験は、CubeScope が意味のあるパターンと異常を正しく検出し、精度と実行速度に関して最先端の方法よりも一貫して優れていることを示しています。


Given a huge, online stream of time-evolving events with multiple attributes, such as online shopping logs: (item, price, brand, time), and local mobility activities: (pick-up and drop-off locations, time), how can we summarize large, dynamic high-order tensor streams? How can we see any hidden patterns, rules, and anomalies? Our answer is to focus on two types of patterns, i.e., ”regimes” and ”components”, for which we present CubeScope, an efficient and effective method over high-order tensor streams. Specifically, it identifies any sudden discontinuity and recognizes distinct dynamical patterns, ”regimes” (e.g., weekday/weekend/holiday patterns). In each regime, it also performs multi-way summarization for all attributes (e.g., item, price, brand, and time) and discovers hidden ”components” representing latent groups (e.g., item/brand groups) and their relationship. Thanks to its concise but effective summarization, CubeScope can also detect the sudden appearance of anomalies and identify the types of anomalies that occur in practice. Our proposed method has the following properties: (a) Effective: it captures dynamical multi-aspect patterns, i.e., regimes and components, and statistically summarizes all the events; (b) General: it is practical for successful application to data compression, pattern discovery, and anomaly detection on various types of tensor streams; (c) Scalable: our algorithm does not depend on the length of the data stream and its dimensionality. Extensive experiments on real datasets demonstrate that CubeScope finds meaningful patterns and anomalies correctly, and consistently outperforms the state-of-the-art methods as regards accuracy and execution speed.


著者 Kota Nakamura,Yasuko Matsubara,Koki Kawabata,Yuhei Umeda,Yuichiro Wada,Yasushi Sakurai
発行日 2023-03-07 10:52:59+00:00
