要約
根本原因分析 (RCA) のタスクは、システム監視データを分析することによって、システム障害/障害の根本原因を特定することです。
効率的な RCA は、システム障害の回復を大幅に加速し、システムの損傷や経済的損失を軽減します。
しかし、これまでの研究は主にオフライン RCA アルゴリズムの開発に焦点を当てており、多くの場合、RCA プロセスを手動で開始し、堅牢なモデルをトレーニングするために大量の時間とデータを必要とし、その後、新しいシステム障害に備えて最初から再トレーニングする必要がありました。
この論文では、RCA プロセスを自動的にトリガーし、RCA モデルを段階的に更新できる新しいオンライン RCA フレームワークである CORAL を提案します。
CORAL は、トリガー ポイント検出、インクリメンタルな解きほぐされた因果グラフ学習、およびネットワーク伝播ベースの根本原因の特定で構成されます。
トリガー ポイント検出コンポーネントは、システム状態の遷移を自動的にほぼリアルタイムで検出することを目的としています。
これを達成するために、多変量特異スペクトル分析と累積合計統計に基づいたオンライン トリガー ポイント検出アプローチを開発します。
RCA モデルを効率的に更新するために、状態不変情報と状態依存情報を切り離す増分的解きほぐし因果グラフ学習アプローチを提案します。
その後、CORAL は更新された因果グラフに再起動を伴うランダム ウォークを適用して、根本原因を正確に特定します。
オンライン RCA プロセスは、因果関係グラフと生成された根本原因リストが収束すると終了します。
ケーススタディを伴う 3 つの現実世界のデータセットに対する広範な実験により、提案されたフレームワークの有効性と優位性が実証されています。
要約(オリジナル)
The task of root cause analysis (RCA) is to identify the root causes of system faults/failures by analyzing system monitoring data. Efficient RCA can greatly accelerate system failure recovery and mitigate system damages or financial losses. However, previous research has mostly focused on developing offline RCA algorithms, which often require manually initiating the RCA process, a significant amount of time and data to train a robust model, and then being retrained from scratch for a new system fault. In this paper, we propose CORAL, a novel online RCA framework that can automatically trigger the RCA process and incrementally update the RCA model. CORAL consists of Trigger Point Detection, Incremental Disentangled Causal Graph Learning, and Network Propagation-based Root Cause Localization. The Trigger Point Detection component aims to detect system state transitions automatically and in near-real-time. To achieve this, we develop an online trigger point detection approach based on multivariate singular spectrum analysis and cumulative sum statistics. To efficiently update the RCA model, we propose an incremental disentangled causal graph learning approach to decouple the state-invariant and state-dependent information. After that, CORAL applies a random walk with restarts to the updated causal graph to accurately identify root causes. The online RCA process terminates when the causal graph and the generated root cause list converge. Extensive experiments on three real-world datasets with case studies demonstrate the effectiveness and superiority of the proposed framework.
arxiv情報
著者 | Dongjie Wang,Zhengzhang Chen,Yanjie Fu,Yanchi Liu,Haifeng Chen |
発行日 | 2023-06-01 15:59:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google