SECURE: Benchmarking Large Language Models for Cybersecurity Advisory

要約

大規模言語モデル (LLM) は、サイバーセキュリティ アプリケーションにおける可能性を示していますが、幻覚や真実性の欠如などの問題により信頼性の低下を引き起こしています。
既存のベンチマークは一般的な評価を提供しますが、サイバーセキュリティ固有のタスクにおける LLM パフォーマンスの実践的および応用的な側面には十分に対応していません。
このギャップに対処するために、現実的なサイバーセキュリティ シナリオで LLM のパフォーマンスを評価するように設計されたベンチマークである SECURE (セキュリティ抽出、理解、推論評価) を導入します。
SECURE には、業界標準のソースに基づいて知識の抽出、理解、推論を評価するための産業用制御システム分野に焦点を当てた 6 つのデータセットが含まれています。
私たちの調査では、これらのタスクに関する 7 つの最先端のモデルを評価し、サイバーセキュリティのコンテキストにおけるそれらの強みと弱みについての洞察を提供し、サイバー アドバイザリー ツールとして LLM の信頼性を向上させるための推奨事項を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated potential in cybersecurity applications but have also caused lower confidence due to problems like hallucinations and a lack of truthfulness. Existing benchmarks provide general evaluations but do not sufficiently address the practical and applied aspects of LLM performance in cybersecurity-specific tasks. To address this gap, we introduce the SECURE (Security Extraction, Understanding \& Reasoning Evaluation), a benchmark designed to assess LLMs performance in realistic cybersecurity scenarios. SECURE includes six datasets focussed on the Industrial Control System sector to evaluate knowledge extraction, understanding, and reasoning based on industry-standard sources. Our study evaluates seven state-of-the-art models on these tasks, providing insights into their strengths and weaknesses in cybersecurity contexts, and offer recommendations for improving LLMs reliability as cyber advisory tools.

arxiv情報

著者 Dipkamal Bhusal,Md Tanvirul Alam,Le Nguyen,Ashim Mahara,Zachary Lightcap,Rodney Frazier,Romy Fieblinger,Grace Long Torales,Nidhi Rastogi
発行日 2024-09-11 13:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.HC パーマリンク