CSTS: A Benchmark for the Discovery of Correlation Structures in Time Series Clustering

要約

時系列のクラスタリングは、ヘルスケア、財務、産業システム、およびその他の重要なドメイン全体のアプリケーションを使用して、データの隠された構造パターンを明らかにすることを約束します。
ただし、検証されたグラウンドトゥルース情報がなければ、研究者はクラスタリング品質を客観的に評価したり、データに存在しない構造に起因する結果、または不適切な検証方法に起因するかどうかを判断することはできません。
これらの課題に対処するために、多変量時系列データの相関構造の発見を評価するための合成ベンチマークであるCST(時系列の相関構造)を導入します。
CSTSは、研究者が相関構造の劣化とクラスタリングアルゴリズムと検証方法の制限を区別することにより、クラスタリング障害の特定の原因を分離および特定できるようにするクリーンなベンチマークを提供します。
私たちの貢献は次のとおりです。(1)異なる相関構造、体系的に変化するデータ条件、確立されたパフォーマンスしきい値、および推奨される評価プロトコルを伴う相関構造の発見の包括的なベンチマーク。
(2)ダウンサンプリングから中程度の歪みと分布シフトとスパース化からの最小限の影響を示す相関構造の保存の経験的検証。
(3)構造ファーストクラスタリング評価を可能にする拡張可能なデータ生成フレームワーク。
ケーススタディでは、アルゴリズムの以前は非正規分布に対する文書化されていない感受性を特定することにより、CSTSの実用性を示しており、ベンチマークが方法論的制限の正確な診断を可能にする方法を示しています。
CSTSは、相関ベースの時系列クラスタリングの厳格な評価基準を進めています。

要約(オリジナル)

Time series clustering promises to uncover hidden structural patterns in data with applications across healthcare, finance, industrial systems, and other critical domains. However, without validated ground truth information, researchers cannot objectively assess clustering quality or determine whether poor results stem from absent structures in the data, algorithmic limitations, or inappropriate validation methods, raising the question whether clustering is ‘more art than science’ (Guyon et al., 2009). To address these challenges, we introduce CSTS (Correlation Structures in Time Series), a synthetic benchmark for evaluating the discovery of correlation structures in multivariate time series data. CSTS provides a clean benchmark that enables researchers to isolate and identify specific causes of clustering failures by differentiating between correlation structure deterioration and limitations of clustering algorithms and validation methods. Our contributions are: (1) a comprehensive benchmark for correlation structure discovery with distinct correlation structures, systematically varied data conditions, established performance thresholds, and recommended evaluation protocols; (2) empirical validation of correlation structure preservation showing moderate distortion from downsampling and minimal effects from distribution shifts and sparsification; and (3) an extensible data generation framework enabling structure-first clustering evaluation. A case study demonstrates CSTS’s practical utility by identifying an algorithm’s previously undocumented sensitivity to non-normal distributions, illustrating how the benchmark enables precise diagnosis of methodological limitations. CSTS advances rigorous evaluation standards for correlation-based time series clustering.

arxiv情報

著者 Isabella Degen,Zahraa S Abdallah,Henry W J Reeve,Kate Robson Brown
発行日 2025-05-20 16:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 62-11, 62H20, 62H30, 62M10, 68T10, cs.LG, G.3, stat.ML パーマリンク