LAnoBERT: System Log Anomaly Detection based on BERT Masked Language Model

要約

システムログとは、コンピュータシステム内で生成される、エラーや侵入、異常動作などを判断するための基礎データとして同時に収集される大規模なデータのことです。
システム ログの異常検出の目的は、業界の重大な問題である人間の介入を最小限に抑えながら、異常を迅速に特定することです。
これまでの研究では、パーサーを使用してさまざまな形式のログデータを標準化されたテンプレートに変換した後、アルゴリズムによって異常検出を実行していました。
特に、ログキー内の情報が失われる可能性のあるすべてのログデータに対して、特定のイベントに対応するテンプレートを事前に定義する必要があります。
本研究では、BERTモデルを用いた、優れた自然言語処理性能を発揮するパーサーフリーのシステムログ異常検出手法「LAnoBERT」を提案します。
提案手法である LAnoBERT は、BERT ベースの事前学習手法であるマスク言語モデリングを通じてモデルを学習し、テストプロセス中にログキーごとにマスク言語モデリングの損失関数を使用して教師なし学習ベースの異常検出を進めます。
さらに、実際のシステムへの実用的なパイプラインを確立するための効率的な推論プロセスも提案します。
3 つのよく知られたログ データセット (HDFS、BGL、Thunderbird) での実験では、LAnoBERT が教師なし学習ベースのベンチマーク モデルと比較して高い異常検出パフォーマンスをもたらしただけでなく、教師あり学習ベースのベンチマーク モデルと同等のパフォーマンスが得られたことを示しています。

要約(オリジナル)

The system log generated in a computer system refers to large-scale data that are collected simultaneously and used as the basic data for determining errors, intrusion and abnormal behaviors. The aim of system log anomaly detection is to promptly identify anomalies while minimizing human intervention, which is a critical problem in the industry. Previous studies performed anomaly detection through algorithms after converting various forms of log data into a standardized template using a parser. Particularly, a template corresponding to a specific event should be defined in advance for all the log data using which the information within the log key may get lost. In this study, we propose LAnoBERT, a parser free system log anomaly detection method that uses the BERT model, exhibiting excellent natural language processing performance. The proposed method, LAnoBERT, learns the model through masked language modeling, which is a BERT-based pre-training method, and proceeds with unsupervised learning-based anomaly detection using the masked language modeling loss function per log key during the test process. In addition, we also propose an efficient inference process to establish a practically applicable pipeline to the actual system. Experiments on three well-known log datasets, i.e., HDFS, BGL, and Thunderbird, show that not only did LAnoBERT yield a higher anomaly detection performance compared to unsupervised learning-based benchmark models, but also it resulted in a comparable performance with supervised learning-based benchmark models.

arxiv情報

著者 Yukyung Lee,Jina Kim,Pilsung Kang
発行日 2023-07-23 16:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク