Towards Automated Penetration Testing: Introducing LLM Benchmark, Analysis, and Improvements

要約

ハッキングはサイバーセキュリティに重大な脅威をもたらし、毎年数十億ドルの損害を与えます。
これらのリスクを軽減するために、倫理的なハッキングまたは侵入テストがシステムやネットワークの脆弱性を特定するために採用されています。
大規模言語モデル (LLM) の最近の進歩により、サイバーセキュリティを含むさまざまなドメインにわたる可能性が示されています。
ただし、現時点では、進歩を促進し、セキュリティのコンテキストにおけるこれらのモデルの機能を評価するための、包括的でオープンなエンドツーエンドの自動侵入テスト ベンチマークはありません。
このペーパーでは、この重大なギャップに対処する、LLM ベースの自動侵入テスト用の新しいオープン ベンチマークを紹介します。
まず、最先端の PentestGPT ツールを使用して、GPT-4o や Llama 3.1-405B などの LLM のパフォーマンスを評価します。
私たちの調査結果では、Llama 3.1 は GPT-4o よりも優れていることを示していますが、現時点ではどちらのモデルも完全に自動化されたエンドツーエンドの侵入テストを実行するには至っていません。
次に、最先端技術を進歩させ、PentestGPT ツールの改善に関する洞察を提供するアブレーション研究を紹介します。
私たちの調査は、侵入テストの各側面で LLM が直面する課題を明らかにしています。
列挙、悪用、権限昇格。
この研究は、AI 支援サイバーセキュリティに関する一連の知識の増大に貢献し、大規模な言語モデルを使用した自動侵入テストにおける将来の研究の基礎を築きます。

要約(オリジナル)

Hacking poses a significant threat to cybersecurity, inflicting billions of dollars in damages annually. To mitigate these risks, ethical hacking, or penetration testing, is employed to identify vulnerabilities in systems and networks. Recent advancements in large language models (LLMs) have shown potential across various domains, including cybersecurity. However, there is currently no comprehensive, open, end-to-end automated penetration testing benchmark to drive progress and evaluate the capabilities of these models in security contexts. This paper introduces a novel open benchmark for LLM-based automated penetration testing, addressing this critical gap. We first evaluate the performance of LLMs, including GPT-4o and Llama 3.1-405B, using the state-of-the-art PentestGPT tool. Our findings reveal that while Llama 3.1 demonstrates an edge over GPT-4o, both models currently fall short of performing fully automated, end-to-end penetration testing. Next, we advance the state-of-the-art and present ablation studies that provide insights into improving the PentestGPT tool. Our research illuminates the challenges LLMs face in each aspect of Pentesting, e.g. enumeration, exploitation, and privilege escalation. This work contributes to the growing body of knowledge on AI-assisted cybersecurity and lays the foundation for future research in automated penetration testing using large language models.

arxiv情報

著者 Isamu Isozaki,Manil Shrestha,Rick Console,Edward Kim
発行日 2024-10-25 16:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク