KPIs-Based Clustering and Visualization of HPC jobs: a Feature Reduction Approach

要約

ハイパフォーマンス コンピューティング (HPC) システムは、安定性を確保するために常に監視する必要があります。
監視システムは、リソース使用量、IO 待機時間など、さまざまなパラメータや重要業績評価指標 (KPI) に関する膨大な量のデータを収集します。通常は時系列として保存されるこのデータを適切に分析することで、システムを選択する際の洞察が得られます。
適切な管理戦略と問題の早期発見。
このペーパーでは、KPI 指標に従って HPC ジョブをクラスター化する方法論を紹介します。
私たちのアプローチでは、文献ベースの特徴抽出と分散ベースの特徴抽出という 2 つの手法を時系列に適用することで、収集されたデータに固有の高次元性を低減します。
また、前述の 2 つのアプローチと主成分分析 (PCA) を組み合わせて、取得されたクラスターを視覚化する手順も定義します。
最後に、実際のデータセットでの貢献を検証し、CPU 使用率に関連するこれらの KPI がクラスタリング分析に最適な結合と分離を提供し、視覚化手法の良好な結果を提供すると結論付けました。

要約(オリジナル)

High-Performance Computing (HPC) systems need to be constantly monitored to ensure their stability. The monitoring systems collect a tremendous amount of data about different parameters or Key Performance Indicators (KPIs), such as resource usage, IO waiting time, etc. A proper analysis of this data, usually stored as time series, can provide insight in choosing the right management strategies as well as the early detection of issues. In this paper, we introduce a methodology to cluster HPC jobs according to their KPI indicators. Our approach reduces the inherent high dimensionality of the collected data by applying two techniques to the time series: literature-based and variance-based feature extraction. We also define a procedure to visualize the obtained clusters by combining the two previous approaches and the Principal Component Analysis (PCA). Finally, we have validated our contributions on a real data set to conclude that those KPIs related to CPU usage provide the best cohesion and separation for clustering analysis and the good results of our visualization methodology.

arxiv情報

著者 Mohamed Soliman Halawa,Rebeca P. Díaz-Redondo,Ana Fernández-Vilas
発行日 2023-12-11 17:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク