Outage-Watch: Early Prediction of Outages using Extreme Event Regularizer


クラウド サービスは遍在しており、重大なクラウド サービスの障害は日常茶飯事です。
これを行う 1 つの方法は、停止を事前に予測することです。これにより、重大度を軽減し、復旧までの時間を短縮できます。
私たちが提案する方法である Outage-Watch では、重大なサービス停止を、一連のメトリクスによって捕捉されるサービス品質 (QoS) の低下として定義します。
Outage-Watch は、現在のシステム状態を使用して、QoS メトリクスがしきい値を超えて極端なイベントが発生するかどうかを予測することで、このような停止を事前に検出します。
ガウスの混合は、柔軟性を高めるために QoS メトリクスの分布をモデル化するために使用され、極端なイベントの正則化は、分布の末尾での学習の改善に役立ちます。
QoS メトリクスのいずれかがしきい値を超える確率が大幅に変化した場合、機能停止が予測されます。
実際の SaaS 企業データセットに対する私たちの評価では、Outage-Watch が平均 AUC 0.98 で従来の方法を大幅に上回っていることが示されています。
さらに、Outage-Watch は、サービス メトリックの変化を示すすべての停止を検出し、エンタープライズ クラウド サービス システムに導入した場合、停止の平均検出時間 (MTTD) を最大 88% 短縮し、提案した方法の有効性を示しています。


Cloud services are omnipresent and critical cloud service failure is a fact of life. In order to retain customers and prevent revenue loss, it is important to provide high reliability guarantees for these services. One way to do this is by predicting outages in advance, which can help in reducing the severity as well as time to recovery. It is difficult to forecast critical failures due to the rarity of these events. Moreover, critical failures are ill-defined in terms of observable data. Our proposed method, Outage-Watch, defines critical service outages as deteriorations in the Quality of Service (QoS) captured by a set of metrics. Outage-Watch detects such outages in advance by using current system state to predict whether the QoS metrics will cross a threshold and initiate an extreme event. A mixture of Gaussian is used to model the distribution of the QoS metrics for flexibility and an extreme event regularizer helps in improving learning in tail of the distribution. An outage is predicted if the probability of any one of the QoS metrics crossing threshold changes significantly. Our evaluation on a real-world SaaS company dataset shows that Outage-Watch significantly outperforms traditional methods with an average AUC of 0.98. Additionally, Outage-Watch detects all the outages exhibiting a change in service metrics and reduces the Mean Time To Detection (MTTD) of outages by up to 88% when deployed in an enterprise cloud-service system, demonstrating efficacy of our proposed method.


著者 Shubham Agarwal,Sarthak Chakraborty,Shaddy Garg,Sumit Bisht,Chahat Jain,Ashritha Gonuguntla,Shiv Saini
発行日 2023-09-29 15:48:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク