OpsEval: A Comprehensive Task-Oriented AIOps Benchmark for Large Language Models

要約

大規模言語モデル (LLM) は、翻訳、要約、生成などの NLP 関連タスクにおいて顕著な機能を発揮してきました。
特定の分野、特に AIOps (IT 運用のための人工知能) への LLM の応用は、情報の要約、レポート分析、API 呼び出しの能力における高度な能力により、大きな可能性を秘めています。
それにもかかわらず、AIOps タスクにおける現在の LLM のパフォーマンスはまだ決定されていません。
さらに、AIOps に合わせた LLM の最適化を方向付けるには、包括的なベンチマークが必要です。
ネットワーク構成などの特定のフィールドの評価に焦点を当てた既存のベンチマークと比較して、このホワイト ペーパーでは、LLM 向けに設計された包括的なタスク指向の AIOps ベンチマークである \textbf{OpsEval} を紹介します。
OpsEval は初めて、3 つの重要なシナリオ (有線ネットワーク操作、5G 通信操作、データベース操作) における LLM の習熟度をさまざまな能力レベル (知識の想起、分析的思考、実践的応用) で評価します。
このベンチマークには、多肢選択形式と質問回答 (QA) 形式の両方で 7,200 の質問が含まれており、英語と中国語で利用できます。
定量的および定性的な結果により、ゼロショット学習、思考連鎖、少数ショットのインコンテキスト学習など、さまざまな LLM トリックが AIOps のパフォーマンスにどのような影響を与えるかを示します。
GPT4 スコアは、広く使用されている Bleu および Rouge よりも専門家の間でより一貫性があり、大規模な定性評価の自動指標を置き換えるために使用できることがわかりました。

要約(オリジナル)

Large language models (LLMs) have exhibited remarkable capabilities in NLP-related tasks such as translation, summarizing, and generation. The application of LLMs in specific areas, notably AIOps (Artificial Intelligence for IT Operations), holds great potential due to their advanced abilities in information summarizing, report analyzing, and ability of API calling. Nevertheless, the performance of current LLMs in AIOps tasks is yet to be determined. Furthermore, a comprehensive benchmark is required to steer the optimization of LLMs tailored for AIOps. Compared with existing benchmarks that focus on evaluating specific fields like network configuration, in this paper, we present \textbf{OpsEval}, a comprehensive task-oriented AIOps benchmark designed for LLMs. For the first time, OpsEval assesses LLMs’ proficiency in three crucial scenarios (Wired Network Operation, 5G Communication Operation, and Database Operation) at various ability levels (knowledge recall, analytical thinking, and practical application). The benchmark includes 7,200 questions in both multiple-choice and question-answer (QA) formats, available in English and Chinese. With quantitative and qualitative results, we show how various LLM tricks can affect the performance of AIOps, including zero-shot, chain-of-thought, and few-shot in-context learning. We find that GPT4-score is more consistent with experts than widely used Bleu and Rouge, which can be used to replace automatic metrics for large-scale qualitative evaluations.

arxiv情報

著者 Yuhe Liu,Changhua Pei,Longlong Xu,Bohan Chen,Mingze Sun,Zhirui Zhang,Yongqian Sun,Shenglin Zhang,Kun Wang,Haiming Zhang,Jianhui Li,Gaogang Xie,Xidao Wen,Xiaohui Nie,Dan Pei
発行日 2023-10-12 01:53:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NI パーマリンク