FaultProfIT: Hierarchical Fault Profiling of Incident Tickets in Large-scale Cloud Systems

要約

クラウド システム内のインシデントの管理には事後分析が不可欠であり、システムの信頼性と堅牢性を向上させるための貴重な洞察が得られます。
CloudA では、障害パターン プロファイリングが事後分析フェーズで実行されます。これには、インシデントの障害が障害パターンと呼ばれる固有のカテゴリに分類されます。
これらの障害パターンを集約して分析することで、エンジニアは一般的な障害、脆弱なコンポーネント、新たな障害傾向を識別できます。
ただし、このプロセスは現在手動のラベル付けによって行われており、これには固有の欠点があります。
一方で、インシデントの量が膨大であるため、最も重大なインシデントのみが分析されるため、障害パターンの概要が偏ってしまいます。
一方で、タスクが複雑であるため広範なドメイン知識が必要となり、エラーや不一致が発生します。
これらの制限に対処するために、インシデント チケットの障害パターン プロファイリングに対して、FaultProfIT という名前の自動化されたアプローチを提案します。
階層に基づく対照学習を活用して、階層を認識したインシデント エンコーダーをトレーニングし、強化されたインシデント表現で障害パターンを予測します。
CloudA からの運用インシデントを使用して FaultProfIT を評価します。
結果は、FaultProfIT が最先端の手法を上回るパフォーマンスを示していることを示しています。
私たちのアブレーション研究と分析では、階層に基づいた対照学習の有効性も検証しています。
さらに、CloudA に FaultProfIT を 6 か月間デプロイしました。
これまでに、FaultProfIT は 30 以上のクラウド サービスからの 10,000 以上のインシデントを分析し、システムの改善に役立ついくつかの障害傾向を明らかにすることに成功しました。

要約(オリジナル)

Postmortem analysis is essential in the management of incidents within cloud systems, which provides valuable insights to improve system’s reliability and robustness. At CloudA, fault pattern profiling is performed during the postmortem phase, which involves the classification of incidents’ faults into unique categories, referred to as fault pattern. By aggregating and analyzing these fault patterns, engineers can discern common faults, vulnerable components and emerging fault trends. However, this process is currently conducted by manual labeling, which has inherent drawbacks. On the one hand, the sheer volume of incidents means only the most severe ones are analyzed, causing a skewed overview of fault patterns. On the other hand, the complexity of the task demands extensive domain knowledge, which leads to errors and inconsistencies. To address these limitations, we propose an automated approach, named FaultProfIT, for Fault pattern Profiling of Incident Tickets. It leverages hierarchy-guided contrastive learning to train a hierarchy-aware incident encoder and predicts fault patterns with enhanced incident representations. We evaluate FaultProfIT using the production incidents from CloudA. The results demonstrate that FaultProfIT outperforms state-of-the-art methods. Our ablation study and analysis also verify the effectiveness of hierarchy-guided contrastive learning. Additionally, we have deployed FaultProfIT at CloudA for six months. To date, FaultProfIT has analyzed 10,000+ incidents from 30+ cloud services, successfully revealing several fault trends that have informed system improvements.

arxiv情報

著者 Junjie Huang,Jinyang Liu,Zhuangbin Chen,Zhihan Jiang,Yichen LI,Jiazhen Gu,Cong Feng,Zengyin Yang,Yongqiang Yang,Michael R. Lyu
発行日 2024-02-27 15:14:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE パーマリンク