Few-Shot Cross-System Anomaly Trace Classification for Microservice-based systems

要約

マイクロサービスベースのシステム (MSS) は、その複雑で動的な性質により、さまざまな障害カテゴリで障害が発生する可能性があります。
障害を効果的に処理するために、AIOps ツールはトレースベースの異常検出と根本原因分析を利用します。
この論文では、MSS の少数ショット異常痕跡分類のための新しいフレームワークを提案します。
私たちのフレームワークは 2 つの主要コンポーネントで構成されています: (1) システム固有のトレース表現を構築するためのマルチヘッド アテンション オートエンコーダ。これにより、(2) トランスフォーマー エンコーダ ベースのモデルに依存しないメタ学習により、異常なトレースに対して効果的かつ効率的な少数ショット学習を実行できます。
分類。
提案されたフレームワークは、オープン データセットを使用して、Trainticket と OnlineBoutique という 2 つの代表的な MSS で評価されます。
結果は、私たちのフレームワークが学習した知識を適応させて、最初にトレーニングされた同じシステム内と、異なる MSS 内でさえも、新しい障害カテゴリの新たな目に見えない異常な痕跡を分類できることを示しています。
同じ MSS 内で、当社のフレームワークは、タスクごとに 10 個のインスタンスが提供された場合、Trainticket と OnlineBoutique の 50 のメタテスト タスクにわたって、それぞれ 93.26\% と 85.2\% の平均精度を達成しました。
クロスシステムのコンテキストでは、私たちのフレームワークは、それぞれのシステムの同じメタテスト タスクに対して、同じくタスクごとに 10 個のインスタンスが提供され、平均精度 92.19\% と 84.77\% を獲得しました。
私たちの研究は、MSS に対する少数ショットの異常トレース分類の適用可能性を実証し、それがどのようにしてシステム間の適応性を可能にするかを示しています。
これにより、異常検出や根本原因分析のためのシステム固有のデータラベル付けが少なくて済む、より汎用化された AIOps ツールを構築する道が開かれます。

要約(オリジナル)

Microservice-based systems (MSS) may experience failures in various fault categories due to their complex and dynamic nature. To effectively handle failures, AIOps tools utilize trace-based anomaly detection and root cause analysis. In this paper, we propose a novel framework for few-shot abnormal trace classification for MSS. Our framework comprises two main components: (1) Multi-Head Attention Autoencoder for constructing system-specific trace representations, which enables (2) Transformer Encoder-based Model-Agnostic Meta-Learning to perform effective and efficient few-shot learning for abnormal trace classification. The proposed framework is evaluated on two representative MSS, Trainticket and OnlineBoutique, with open datasets. The results show that our framework can adapt the learned knowledge to classify new, unseen abnormal traces of novel fault categories both within the same system it was initially trained on and even in the different MSS. Within the same MSS, our framework achieves an average accuracy of 93.26\% and 85.2\% across 50 meta-testing tasks for Trainticket and OnlineBoutique, respectively, when provided with 10 instances for each task. In a cross-system context, our framework gets an average accuracy of 92.19\% and 84.77\% for the same meta-testing tasks of the respective system, also with 10 instances provided for each task. Our work demonstrates the applicability of achieving few-shot abnormal trace classification for MSS and shows how it can enable cross-system adaptability. This opens an avenue for building more generalized AIOps tools that require less system-specific data labeling for anomaly detection and root cause analysis.

arxiv情報

著者 Yuqing Wang,Mika V. Mantylä,Serge Demeyer,Mutlu Beyazit,Joanna Kisaakye,Jesse Nyyssölä
発行日 2024-03-31 16:15:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク