Comparison of Clustering Algorithms for Statistical Features of Vibration Data Sets


振動を利用した状態監視システムは、広い周波数範囲にわたって動的な特徴を捉えることで、異なる状態を正確に識別することができるため、注目度が高まっています。しかし、振動データにおけるクラスタリングアプローチに関する研究はほとんどなく、得られた解はしばしば単一のデータセットに対して最適化されたものである。本研究では、振動データセットの時間領域と周波数領域から抽出された統計的特徴に適用されるクラスタリングアルゴリズムK-meansクラスタリング、OPTICS、およびガウス混合モデルクラスタリング(GMM)の広範囲な比較を提示します。さらに、特徴の組み合わせ、主成分分析(PCA)による特徴選択、指定したクラスタ数が、各クラスタリングアルゴリズムの性能に与える影響についても調査している。この比較は、3つの異なるベンチマークデータセットを用いたグリッドサーチの観点から実施した。その結果、平均値(Mean, Median)と分散に基づく特徴(Standard Deviation, Interquartile Range)は、形状に基づく特徴(Skewness, Kurtosis)よりも有意に良好な性能を示すことがわかりました。また、これらのデータセットでは、K-meansはGMMをわずかに上回ったが、OPTICSは大幅に下回る結果となった。また、特徴の組み合わせやPCAの特徴選択では、有意な性能向上が得られないことを示すことができた。指定されたクラスタ数の増加に伴い、クラスタリングアルゴリズムは、いくつかの特定のアルゴリズム的な制約があるものの、より良いパフォーマンスを示した。


Vibration-based condition monitoring systems are receiving increasing attention due to their ability to accurately identify different conditions by capturing dynamic features over a broad frequency range. However, there is little research on clustering approaches in vibration data and the resulting solutions are often optimized for a single data set. In this work, we present an extensive comparison of the clustering algorithms K-means clustering, OPTICS, and Gaussian mixture model clustering (GMM) applied to statistical features extracted from the time and frequency domains of vibration data sets. Furthermore, we investigate the influence of feature combinations, feature selection using principal component analysis (PCA), and the specified number of clusters on the performance of the clustering algorithms. We conducted this comparison in terms of a grid search using three different benchmark data sets. Our work showed that averaging (Mean, Median) and variance-based features (Standard Deviation, Interquartile Range) performed significantly better than shape-based features (Skewness, Kurtosis). In addition, K-means outperformed GMM slightly for these data sets, whereas OPTICS performed significantly worse. We were also able to show that feature combinations as well as PCA feature selection did not result in any significant performance improvements. With an increase in the specified number of clusters, clustering algorithms performed better, although there were some specific algorithmic restrictions.


著者 Philipp Sepin,Jana Kemnitz,Safoura Rezapour Lakani,Daniel Schall
発行日 2023-05-11 12:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.LG パーマリンク