A Review and Evaluation of Elastic Distance Functions for Time Series Clustering

要約

タイトル:時間系列クラスタリングのためのエラスティック距離関数のレビューおよび評価
要約:
– 時間系列クラスタリングは、ラベルを使用せずに時間系列データをグループ化することを指す。
– 時間系列をクラスタリングするアルゴリズムは、時間系列特有の距離尺度を使用するものと、時間系列から特徴を抽出するものの2つに分類できる。
– この論文では、エラスティック距離尺度を採用した距離ベースの時間系列に焦点を当て、9つの一般的なエラスティック距離尺度を説明し、k-meansおよびk-medoidsクラスタリングと比較する。
– ダイナミックタイムワーピング(DTW)という最も人気のあるテクニックは、k-meansと比較して性能が劣り、チューニングしても改善されないことがわかった。
– k-medoidsを使用することで、9つの距離尺度すべてでクラスタリングの品質が向上した。DTWは、k-medoidsと比較しても、Euclidean距離と大差ない性能を発揮した。
– 編集とワーピングを併用する距離尺度が一般的に優れており、MSM法がこの研究で最も優れた距離尺度となった。
– DTWを使用したDBAクラスタリングと比較したところ、DBAはDTW k-meansの性能を向上させたが、標準的なDBAはMSMを使用する場合よりも性能が劣った。
– 著者たちは、k-medoidsとMSM法を時間系列クラスタリングのベンチマークアルゴリズムとして推奨し、関連するGitHubリポジトリで実装、結果、再現方法のガイダンスを提供している。

要約(オリジナル)

Time series clustering is the act of grouping time series data without recourse to a label. Algorithms that cluster time series can be classified into two groups: those that employ a time series specific distance measure; and those that derive features from time series. Both approaches usually rely on traditional clustering algorithms such as $k$-means. Our focus is on distance based time series that employ elastic distance measures, i.e. distances that perform some kind of realignment whilst measuring distance. We describe nine commonly used elastic distance measures and compare their performance with k-means and k-medoids clustering. Our findings are surprising. The most popular technique, dynamic time warping (DTW), performs worse than Euclidean distance with k-means, and even when tuned, is no better. Using k-medoids rather than k-means improved the clusterings for all nine distance measures. DTW is not significantly better than Euclidean distance with k-medoids. Generally, distance measures that employ editing in conjunction with warping perform better, and one distance measure, the move-split-merge (MSM) method, is the best performing measure of this study. We also compare to clustering with DTW using barycentre averaging (DBA). We find that DBA does improve DTW k-means, but that the standard DBA is still worse than using MSM. Our conclusion is to recommend MSM with k-medoids as the benchmark algorithm for clustering time series with elastic distance measures. We provide implementations in the aeon toolkit, results and guidance on reproducing results on the associated GitHub repository.

arxiv情報

著者 Chris Holder,Matthew Middlehurst,Anthony Bagnall
発行日 2023-04-26 08:17:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク