On the Effectiveness of Log Representation for Log-based Anomaly Detection

要約

ログは、ソフトウェア システムの実行ステータスを理解するための重要な情報源です。
最新のソフトウェア アーキテクチャとメンテナンス方法が進化しているため、自動ログ分析に多くの研究努力が注がれています。
特に、機械学習 (ML) はログ分析タスクで広く使用されています。
ML ベースのログ分析タスクでは、テキストのログ データを数値特徴ベクトルに変換することが重要かつ不可欠な手順です。
ただし、さまざまなログ表現手法を使用することが下流モデルのパフォーマンスに与える影響は明らかではないため、研究者や実務者が自動ログ分析ワークフローで最適なログ表現手法を選択する機会が制限されています。
したがって、この作業では、以前のログ分析研究で一般的に採用されているログ表現手法を調査し、比較します。
特に、ログベースの異常検出のコンテキストで 6 つのログ表現手法を選択し、7 つの ML モデルと 4 つのパブリック ログ データセット (HDFS、BGL、Spirit、Thunderbird) を使用してそれらを評価します。
また、ログ解析プロセスとさまざまな特徴集約アプローチをログ表現手法と併用した場合のその影響についても調査します。
実験から、将来の研究者や開発者が自動ログ分析ワークフローを設計する際に従うべきヒューリスティックなガイドラインをいくつか提供します。
ログ表現手法の包括的な比較は、研究者や実践者がさまざまなログ表現手法の特性をより深く理解し、ML ベースのログ分析ワークフローに最適なものを選択するためのガイダンスを提供できると信じています。

要約(オリジナル)

Logs are an essential source of information for people to understand the running status of a software system. Due to the evolving modern software architecture and maintenance methods, more research efforts have been devoted to automated log analysis. In particular, machine learning (ML) has been widely used in log analysis tasks. In ML-based log analysis tasks, converting textual log data into numerical feature vectors is a critical and indispensable step. However, the impact of using different log representation techniques on the performance of the downstream models is not clear, which limits researchers and practitioners’ opportunities of choosing the optimal log representation techniques in their automated log analysis workflows. Therefore, this work investigates and compares the commonly adopted log representation techniques from previous log analysis research. Particularly, we select six log representation techniques and evaluate them with seven ML models and four public log datasets (i.e., HDFS, BGL, Spirit and Thunderbird) in the context of log-based anomaly detection. We also examine the impacts of the log parsing process and the different feature aggregation approaches when they are employed with log representation techniques. From the experiments, we provide some heuristic guidelines for future researchers and developers to follow when designing an automated log analysis workflow. We believe our comprehensive comparison of log representation techniques can help researchers and practitioners better understand the characteristics of different log representation techniques and provide them with guidance for selecting the most suitable ones for their ML-based log analysis workflow.

arxiv情報

著者 Xingfang Wu,Heng Li,Foutse Khomh
発行日 2023-11-27 16:49:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク