OneLog: Towards End-to-End Training in Software Log Anomaly Detection

要約

オンライン サービス、IoT デバイス、DevOps 指向のソフトウェア開発の成長に伴い、ソフトウェア ログの異常検出の重要性が増しています。
これまでの作業は主に、従来の 4 段階のアーキテクチャ (プリプロセッサ、パーサー、ベクタライザー、および分類子) に従っていました。
このペーパーでは、複数の個別のコンポーネントの代わりに単一のディープ ニューラル ネットワーク (DNN) を利用する OneLog を提案します。
OneLog は、畳み込みニューラル ネットワーク (CNN) を文字レベルで利用して、主要な自然言語テキストとともに、以前の研究では削除されていた数字、数字、句読点を考慮します。
HDFS、Hadoop、BGL、Thunderbird、Spirit、Liberty の 6 つのメッセージベースおよびシーケンスベースのデータセットでアプローチを評価します。
私たちは、単一、複数、およびクロスプロジェクトのセットアップで Onelog を実験します。
Onelog は、データセットで最先端のパフォーマンスを提供します。
Onelog はトレーニング中に複数プロジェクトのデータセットを同時に利用できます。これは、私たちのモデルがデータセット間で一般化できることを示唆しています。
マルチプロジェクト トレーニングは Onelog のパフォーマンスも向上させるため、個々のプロジェクトで使用できるトレーニング データが限られている場合に最適です。
また、プロジェクト間の異常検出は、単一のプロジェクト ペア (Liberty と Spirit) で可能であることもわかりました。
モデルの内部構造を分析すると、1 つのログに異常を検出する複数のモードがあること、およびモデルが手動で検証されたログ メッセージの解析ルールを学習していることがわかります。
文字ベースの CNN は、ログ異常検出におけるエンドツーエンド学習への有望なアプローチであると結論付けています。
これらは、複数のデータセットにわたって優れたパフォーマンスと一般化を提供します。
この論文が受理され次第、スクリプトを一般公開します。

要約(オリジナル)

With the growth of online services, IoT devices, and DevOps-oriented software development, software log anomaly detection is becoming increasingly important. Prior works mainly follow a traditional four-staged architecture (Preprocessor, Parser, Vectorizer, and Classifier). This paper proposes OneLog, which utilizes a single Deep Neural Network (DNN) instead of multiple separate components. OneLog harnesses Convolutional Neural Networks (CNN) at the character level to take digits, numbers, and punctuations, which were removed in prior works, into account alongside the main natural language text. We evaluate our approach in six message- and sequence-based data sets: HDFS, Hadoop, BGL, Thunderbird, Spirit, and Liberty. We experiment with Onelog with single-, multi-, and cross-project setups. Onelog offers state-of-the-art performance in our datasets. Onelog can utilize multi-project datasets simultaneously during training, which suggests our model can generalize between datasets. Multi-project training also improves Onelog performance making it ideal when limited training data is available for an individual project. We also found that cross-project anomaly detection is possible with a single project pair (Liberty and Spirit). Analysis of model internals shows that one log has multiple modes of detecting anomalies and that the model learns manually validated parsing rules for the log messages. We conclude that character-based CNNs are a promising approach toward end-to-end learning in log anomaly detection. They offer good performance and generalization over multiple datasets. We will make our scripts publicly available upon the acceptance of this paper.

arxiv情報

著者 Shayan Hashemi,Mika Mäntylä
発行日 2024-02-27 17:07:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク