Nissist: An Incident Mitigation Copilot based on Troubleshooting Guides

要約

エンタープライズレベルのクラウド サービスを円滑に運用するには、効果的なインシデント管理が極めて重要です。
インシデントの軽減を促進するために、サービス チームはトラブルシューティングの知識を、オンコール エンジニア (OCE) がアクセスできるトラブルシューティング ガイド (TSG) にまとめます。
自動化されたパイプラインにより、最も頻繁に発生する簡単なインシデントを解決できるようになりましたが、OCE の介入を必要とする複雑なインシデントも依然として存在します。
ただし、TSG は構造化されておらず不完全であることが多く、OCE による手動の解釈が必要となり、特に新入社員の OCE の間でオンコール疲労や生産性の低下につながります。
この研究では、TSG とインシデント軽減履歴を活用してプロアクティブな提案を提供し、人間の介入を減らす Nissist を提案します。
Nissist は、Large Language Model (LLM) を活用して、非構造化 TSG および過去のインシデント軽減に関する議論から洞察を抽出し、包括的な知識ベースを形成します。
マルチエージェント システム設計により、ユーザーのクエリを正確に識別し、関連情報を取得し、体系的な計画を継続的に提供する能力が向上します。
ユーザー事例と実験を通じて、Nissist がインシデント軽減における軽減時間 (TTM) を大幅に短縮し、OCE の運用負担を軽減し、サービスの信頼性を向上させることを実証しました。
私たちのデモは https://aka.ms/nissist_demo で入手できます。

要約(オリジナル)

Effective incident management is pivotal for the smooth operation of enterprises-level cloud services. In order to expedite incident mitigation, service teams compile troubleshooting knowledge into Troubleshooting Guides (TSGs) accessible to on-call engineers (OCEs). While automated pipelines are enabled to resolve the most frequent and easy incidents, there still exist complex incidents that require OCEs’ intervention. However, TSGs are often unstructured and incomplete, which requires manual interpretation by OCEs, leading to on-call fatigue and decreased productivity, especially among new-hire OCEs. In this work, we propose Nissist which leverages TSGs and incident mitigation histories to provide proactive suggestions, reducing human intervention. Leveraging Large Language Models (LLM), Nissist extracts insights from unstructured TSGs and historical incident mitigation discussions, forming a comprehensive knowledge base. Its multi-agent system design enhances proficiency in precisely discerning user queries, retrieving relevant information, and delivering systematic plans consecutively. Through our user case and experiment, we demonstrate that Nissist significant reduce Time to Mitigate (TTM) in incident mitigation, alleviating operational burdens on OCEs and improving service reliability. Our demo is available at https://aka.ms/nissist_demo.

arxiv情報

著者 Kaikai An,Fangkai Yang,Junting Lu,Liqun Li,Zhixing Ren,Hao Huang,Lu Wang,Pu Zhao,Yu Kang,Hua Ding,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang,Qi Zhang
発行日 2024-05-10 11:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク