A Comparative Study on Large Language Models for Log Parsing

要約

背景: ログ メッセージは、ソフトウェア システムのステータスに関する貴重な情報を提供します。
この情報は非構造化形式で提供され、自動化されたアプローチが適用されて関連パラメーターが抽出されます。
このプロセスを容易にするために、ログ解析を適用すると、ログ メッセージが構造化されたログ テンプレートに変換されます。
言語モデルの最近の進歩により、ログ解析タスクに ChatGPT を適用するいくつかの研究が行われ、有望な結果が得られています。
ただし、ログ解析タスクにおける他の最先端の大規模言語モデル (LLM) のパフォーマンスは依然として不明です。
目的: この研究では、ログ解析を実行する最先端の LLM の現在の機能を調査します。
方法: 有料のプロプライエタリ (GPT-3.5、Claude 2.1) と 4 つの無料で使用できるオープン モデルの両方を含む 6 つの最近の LLM を選択し、成熟したオープンソース プロジェクトの選択から取得したシステム ログでパフォーマンスを比較します。
私たちは 2 つの異なるプロンプト アプローチを設計し、16 の異なるプロジェクトにわたる 1,354 のログ テンプレートに LLM を適用します。
正しく識別されたテンプレートの数、および生成されたテンプレートとグラウンド トゥルース間の構文の類似性によって、その有効性を評価します。
結果: CodeLlama が GPT-3.5 よりも 10% 多くのログ テンプレートを正しく抽出することで、無料で使用できるモデルが有料モデルと競合できることがわかりました。
さらに、言語モデルの使いやすさ (応答の使いやすさなど) について定性的な洞察を提供します。
結論: 私たちの結果は、小規模で無料で使用できる LLM の一部は、有料の独自の競合製品、特にコードに特化したモデルと比較して、ログ解析を大幅に支援できることを明らかにしました。

要約(オリジナル)

Background: Log messages provide valuable information about the status of software systems. This information is provided in an unstructured fashion and automated approaches are applied to extract relevant parameters. To ease this process, log parsing can be applied, which transforms log messages into structured log templates. Recent advances in language models have led to several studies that apply ChatGPT to the task of log parsing with promising results. However, the performance of other state-of-the-art large language models (LLMs) on the log parsing task remains unclear. Aims: In this study, we investigate the current capability of state-of-the-art LLMs to perform log parsing. Method: We select six recent LLMs, including both paid proprietary (GPT-3.5, Claude 2.1) and four free-to-use open models, and compare their performance on system logs obtained from a selection of mature open-source projects. We design two different prompting approaches and apply the LLMs on 1, 354 log templates across 16 different projects. We evaluate their effectiveness, in the number of correctly identified templates, and the syntactic similarity between the generated templates and the ground truth. Results: We found that free-to-use models are able to compete with paid models, with CodeLlama extracting 10% more log templates correctly than GPT-3.5. Moreover, we provide qualitative insights into the usability of language models (e.g., how easy it is to use their responses). Conclusions: Our results reveal that some of the smaller, free-to-use LLMs can considerably assist log parsing compared to their paid proprietary competitors, especially code-specialized models.

arxiv情報

著者 Merve Astekin,Max Hort,Leon Moonen
発行日 2024-09-04 06:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク