An Empirical Study of NetOps Capability of Pre-Trained Large Language Models

要約

大規模言語モデル (LLM) は人間の言語クエリに応答でき、ネットワーク運用 (NetOps) における強力な潜在的なアプリケーションを示しています。
固有の大量の常識知識のおかげで、LLM は従来のモデルよりもはるかに優れた推論精度を実現し、一般化、推論、コード生成において強力な能力を発揮します。
これらの機能は、自動化されたインテリジェントな NetOps を大幅に強化する可能性があります。
ただし、LLM がさまざまな NetOps タスクでどの程度優れたパフォーマンスを発揮するかについては、まだ十分に調査されていません。
この作業では、NetOps の分野で選択した LLM の機能、強み、および限界を体系的に評価します。
評価は、ChatGPT、LLaMA、Falcon などの 26 の公的に利用可能な一般ドメイン LLM を含む、NetOps に関する 5,732 の質問の集合に対して行われます。また、収集した NetOps コーパスを使用してこれらの LLM の一部を微調整し、結果のモデルを評価します。
評価方法は、思考連鎖プロンプトと検索拡張生成を組み合わせた、汎用ドメイン LLM に広く採用されているベンチマークに従います。
結果は、人間の NetOps 認定試験に合格するのと同等の高い精度を達成しているのは GPT-4 だけであり、他のすべての LLM の精度ははるかに低いことがわかります。
ただし、LLaMA 2 のような一部のオープン モデルは依然として大きな可能性を示しています。
さらに、モデル パラメーター、プロンプト エンジニアリング、命令の微調整などの要因の影響を評価します。この作業は、NetOps における LLM の体系的な評価への最初の取り組みとして扱われ、運用環境での使用にはより厳密な調査が必要です。
評価コードとデータセットは、将来の研究に役立てるために公開されます。

要約(オリジナル)

Large language models (LLMs) can respond to human language queries and have shown powerful potential applications in network operations (NetOps). Thanks to the large amount of commonsense knowledge inherent, LLMs achieve much better inference accuracy than traditional models and emerge with strong abilities in generalization, reasoning, and code generation. These abilities may have a crucial boost to automated and intelligent NetOps. However, it remains under-explored how well LLMs perform in various NetOps tasks. In this work, we make a systematic assessment of the capabilities, strengths, and limitations of selected LLMs in the field of NetOps. The evaluation is conducted on a collection of 5,732 questions about NetOps, encompassing 26 publicly available general-domain LLMs, including ChatGPT, LLaMA, Falcon, etc. We also finetune some of these LLMs with our collected NetOps corpus and evaluate the resulting models. The evaluation method follows the widely adopted benchmarks for general-domain LLMs, combined with Chain-of-Thought Prompts and Retrieval-Augmented Generation. The results show that only GPT-4 achieves high accuracy equivalent to passing the NetOps certification exam for humans, while all the other LLMs have much lower accuracy. However, some open models like LLaMA 2 still demonstrate significant potential. Furthermore, we evaluate the impact of factors such as model parameters, prompt engineering, instruction fine-tuning etc. This work shall be treated as the initial effort to systematic evaluation of LLMs in NetOps, and a more rigorous study is required for production use. The evaluation code and dataset will be released to benefit future research.

arxiv情報

著者 Yukai Miao,Yu Bai,Li Chen,Dan Li,Haifeng Sun,Xizheng Wang,Ziqiu Luo,Dapeng Sun,Xiuting Xu,Qi Zhang,Chao Xiang,Xinchi Li
発行日 2023-09-12 12:15:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.NI パーマリンク