Generic and Robust Root Cause Localization for Multi-Dimensional Data in Online Service Systems

要約

タイトル:オンラインサービスシステムの多次元データにおける汎用かつ堅牢なルート原因特定

要約:

– 多次元データのルート原因特定は、オンラインサービスシステムの信頼性を確保するために重要である。
– 不具合が発生した場合、特定の属性組み合わせ内の値だけが異常である。
– このような属性の組み合わせは、潜在的なルート原因の重要な手がかりであり、多次元データのルート原因と呼ばれている。
– この論文は、多次元データの汎用かつ堅牢なルート原因特定手法「PSqueeze」を提案している。
– 多次元データのルート原因に関する汎用的な性質である「一般化されたリップル効果」(GRE)に基づいて、新しい確率的クラスタ法と堅牢なヒューリスティック探索法を提案している。
– また、外部ルート原因の特定の重要性を識別し、初めて効果的な方法を提案している。
– 実験により、2つの実世界のデータセットで5400の不具合を分析し、PSqueezeのF1スコアは32.89%のベースラインを上回り、すべてのケースで約10秒の特定時間になったことが分かった。
– PSqueezeの外部ルート原因のF1スコアは、0.90に達した。
– さらに、いくつかの実稼働システムのケーススタディにより、PSqueezeが実世界での故障診断に役立つことが示された。

要約(オリジナル)

Localizing root causes for multi-dimensional data is critical to ensure online service systems’ reliability. When a fault occurs, only the measure values within specific attribute combinations are abnormal. Such attribute combinations are substantial clues to the underlying root causes and thus are called root causes of multidimensional data. This paper proposes a generic and robust root cause localization approach for multi-dimensional data, PSqueeze. We propose a generic property of root cause for multi-dimensional data, generalized ripple effect (GRE). Based on it, we propose a novel probabilistic cluster method and a robust heuristic search method. Moreover, we identify the importance of determining external root causes and propose an effective method for the first time in literature. Our experiments on two real-world datasets with 5400 faults show that the F1-score of PSqueeze outperforms baselines by 32.89%, while the localization time is around 10 seconds across all cases. The F1-score in determining external root causes of PSqueeze achieves 0.90. Furthermore, case studies in several production systems demonstrate that PSqueeze is helpful to fault diagnosis in the real world.

arxiv情報

著者 Zeyan Li,Junjie Chen,Yihao Chen,Chengyang Luo,Yiwei Zhao,Yongqian Sun,Kaixin Sui,Xiping Wang,Dapeng Liu,Xing Jin,Qi Wang,Dan Pei
発行日 2023-05-05 07:22:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.PF, cs.SE パーマリンク