PACE-LM: Prompting and Augmentation for Calibrated Confidence Estimation with GPT-4 in Cloud Incident Root Cause Analysis

要約

主要なクラウド プロバイダーは、人間によるクラウド インシデントの根本原因の特定を支援するために、大規模言語モデルなどの高度な AI ベースのソリューションを採用しています。
根本原因分析プロセスにおける AI 主導のアシスタントの普及が進んでいるにもかかわらず、オンコール エンジニアを支援するアシスタントの有効性は、タスクの本質的な難しさ、LLM ベースのアプローチの幻覚傾向、および困難による精度の低さによって制限されています。
これらの巧妙に隠蔽された幻覚を区別する際に。
この課題に対処するために、オンコール エンジニアがモデル予測を採用するかどうかを決定できるように、予測の信頼度推定を実行することを提案します。
多くの LLM ベースの根本原因予測子のブラック ボックスの性質を考慮すると、微調整や温度スケーリング ベースのアプローチは適用できません。
したがって、根本原因予測子からの最小限の情報を要求するプロンプト検索拡張大規模言語モデル (LLM) に基づいた革新的な信頼度推定フレームワークを設計します。
このアプローチは 2 つのスコアリング フェーズで構成されます。LLM ベースの信頼推定器は、まず、参照データ内の「根拠」レベルを反映する現在のインシデントに直面した判断を行う際の信頼性を評価し、次に、次の基準に基づいて根本原因の予測を評価します。
歴史的な参考資料。
最適化ステップでは、これら 2 つのスコアを組み合わせて、最終的な信頼度の割り当てを行います。
私たちの方法が、予測された根本原因に対する校正された信頼推定値を生成し、取得された履歴データとプロンプト戦略の有用性、およびさまざまな根本原因予測モデルにわたる一般化可能性を検証できることを示します。
私たちの研究は、LLM をクラウド インシデント管理システムに確実かつ効果的に組み込むことに向けた重要な一歩を踏み出しました。

要約(オリジナル)

Major cloud providers have employed advanced AI-based solutions like large language models to aid humans in identifying the root causes of cloud incidents. Despite the growing prevalence of AI-driven assistants in the root cause analysis process, their effectiveness in assisting on-call engineers is constrained by low accuracy due to the intrinsic difficulty of the task, a propensity for LLM-based approaches to hallucinate, and difficulties in distinguishing these well-disguised hallucinations. To address this challenge, we propose to perform confidence estimation for the predictions to help on-call engineers make decisions on whether to adopt the model prediction. Considering the black-box nature of many LLM-based root cause predictors, fine-tuning or temperature-scaling-based approaches are inapplicable. We therefore design an innovative confidence estimation framework based on prompting retrieval-augmented large language models (LLMs) that demand a minimal amount of information from the root cause predictor. This approach consists of two scoring phases: the LLM-based confidence estimator first evaluates its confidence in making judgments in the face of the current incident that reflects its “grounded-ness’ level in reference data, then rates the root cause prediction based on historical references. An optimization step combines these two scores for a final confidence assignment. We show that our method is able to produce calibrated confidence estimates for predicted root causes, validate the usefulness of retrieved historical data and the prompting strategy as well as the generalizability across different root cause prediction models. Our study takes an important move towards reliably and effectively embedding LLMs into cloud incident management systems.

arxiv情報

著者 Dylan Zhang,Xuchao Zhang,Chetan Bansal,Pedro Las-Casas,Rodrigo Fonseca,Saravan Rajmohan
発行日 2023-09-29 16:25:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE パーマリンク