What Information Contributes to Log-based Anomaly Detection? Insights from a Configurable Transformer-Based Approach

要約

ログ データはソース コードのログ ステートメントから生成され、ソフトウェア アプリケーションやシステムの実行プロセスに関する洞察を提供します。
最先端のログベースの異常検出アプローチでは、通常、深層学習モデルを活用して、ログ データ内のセマンティック情報または逐次情報をキャプチャし、異常な実行時の動作を検出します。
ただし、これらのさまざまな種類の情報の影響は明らかではありません。
さらに、既存のアプローチでは、ログ データ内のタイムスタンプがキャプチャされていないため、順次情報よりも詳細な時間情報が提供される可能性があります。
この研究では、ログ データ内の意味論的、連続的、時間的な情報をキャプチャでき、さまざまな種類の情報をモデルの特徴として構成できる、構成可能なトランスフォーマー ベースの異常検出モデルを提案します。
さらに、さまざまな長さのログシーケンスを使用して提案されたモデルをトレーニングおよび評価することで、固定長または時間ウィンドウのログシーケンスを入力として依存する既存の手法の制約を克服します。
提案されたモデルを使用して、入力特徴のさまざまな組み合わせで一連の実験を実行し、異常検出におけるさまざまな種類の情報の役割を評価します。
さまざまな長さのログ シーケンスが提示された場合、モデルはベースラインと比較して、競争力のある一貫した安定したパフォーマンスを達成できます。
結果は、イベント発生情報が異常の特定に重要な役割を果たす一方、調査対象の公開データセットでの異常検出においては、連続的および一時的な情報の影響が重要ではないことを示しています。
一方で、この調査結果は、調査された公開データセットの単純性も明らかにし、異常検出モデルのパフォーマンスをより適切に評価するために、さまざまなタイプの異常を含む新しいデータセットを構築することの重要性を強調しています。

要約(オリジナル)

Log data are generated from logging statements in the source code, providing insights into the execution processes of software applications and systems. State-of-the-art log-based anomaly detection approaches typically leverage deep learning models to capture the semantic or sequential information in the log data and detect anomalous runtime behaviors. However, the impacts of these different types of information are not clear. In addition, existing approaches have not captured the timestamps in the log data, which can potentially provide more fine-grained temporal information than sequential information. In this work, we propose a configurable transformer-based anomaly detection model that can capture the semantic, sequential, and temporal information in the log data and allows us to configure the different types of information as the model’s features. Additionally, we train and evaluate the proposed model using log sequences of different lengths, thus overcoming the constraint of existing methods that rely on fixed-length or time-windowed log sequences as inputs. With the proposed model, we conduct a series of experiments with different combinations of input features to evaluate the roles of different types of information in anomaly detection. When presented with log sequences of varying lengths, the model can attain competitive and consistently stable performance compared to the baselines. The results indicate that the event occurrence information plays a key role in identifying anomalies, while the impact of the sequential and temporal information is not significant for anomaly detection in the studied public datasets. On the other hand, the findings also reveal the simplicity of the studied public datasets and highlight the importance of constructing new datasets that contain different types of anomalies to better evaluate the performance of anomaly detection models.

arxiv情報

著者 Xingfang Wu,Heng Li,Foutse Khomh
発行日 2024-09-30 17:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク