Cloud Atlas: Efficient Fault Localization for Cloud Systems using Language Models and Causal Insight

要約

実行時の障害やパフォーマンスの低下は、最新のクラウド システムではよくあることです。
クラウド プロバイダーにとって、インシデントの根本原因を自動的に特定することは、高い信頼性と可用性を確保するために最も重要です。迅速な障害位置特定により、迅速な診断と優先順位付けが可能になり、タイムリーな解決が可能になります。
最近の研究で検討された説得力のある解決策は、因果グラフを使用してさまざまなクラウド システム パフォーマンス メトリクス間の関係を捉える因果推論です。
ただし、効果を発揮するには、システム開発者がシステムの因果関係グラフを正しく定義する必要があります。これは、時間がかかり、脆弱で困難な作業であり、大規模で動的なシステムでは難易度が上がり、ドメインの専門知識が必要です。
あるいは、自動化されたデータ駆動型アプローチは、インシデントの固有の希少性により、クラウド システムに対する有効性が限られています。
この研究では、クラウド システムの因果関係グラフを自動的に合成する新しいアプローチである Atlas を紹介します。
Atlas は大規模言語モデル (LLM) を活用し、システム ドキュメント、テレメトリ、展開フィードバックを使用して因果関係グラフを生成します。
Atlas はデータ駆動型の因果関係発見技術を補完するものであり、データ駆動型の検証ステップで Atlas をさらに強化します。
私たちは、さまざまな障害位置特定シナリオにわたって Atlas を評価し、Atlas がスケーラブルかつ一般化可能な方法で因果関係グラフを生成でき、そのパフォーマンスがデータ駆動型アルゴリズムのパフォーマンスをはるかに上回り、グラウンドトゥルースのベースラインに見合ったものであることを実証します。

要約(オリジナル)

Runtime failure and performance degradation is commonplace in modern cloud systems. For cloud providers, automatically determining the root cause of incidents is paramount to ensuring high reliability and availability as prompt fault localization can enable faster diagnosis and triage for timely resolution. A compelling solution explored in recent work is causal reasoning using causal graphs to capture relationships between varied cloud system performance metrics. To be effective, however, systems developers must correctly define the causal graph of their system, which is a time-consuming, brittle, and challenging task that increases in difficulty for large and dynamic systems and requires domain expertise. Alternatively, automated data-driven approaches have limited efficacy for cloud systems due to the inherent rarity of incidents. In this work, we present Atlas, a novel approach to automatically synthesizing causal graphs for cloud systems. Atlas leverages large language models (LLMs) to generate causal graphs using system documentation, telemetry, and deployment feedback. Atlas is complementary to data-driven causal discovery techniques, and we further enhance Atlas with a data-driven validation step. We evaluate Atlas across a range of fault localization scenarios and demonstrate that Atlas is capable of generating causal graphs in a scalable and generalizable manner, with performance that far surpasses that of data-driven algorithms and is commensurate to the ground-truth baseline.

arxiv情報

著者 Zhiqiang Xie,Yujia Zheng,Lizi Ottens,Kun Zhang,Christos Kozyrakis,Jonathan Mace
発行日 2024-07-11 17:31:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク