要約
ハッキングはサイバーセキュリティに大きな脅威をもたらし、毎年数十億ドルの損害を与えます。
これらのリスクを緩和するために、倫理的ハッキング、または浸透テストが採用され、システムとネットワークの脆弱性を特定します。
大規模な言語モデル(LLM)の最近の進歩は、サイバーセキュリティを含むさまざまなドメインにわたって潜在的な可能性を示しています。
ただし、現在、セキュリティコンテキストでこれらのモデルの機能を評価して評価するために、包括的な、オープンなエンドツーエンドの自動浸透テストベンチマークはありません。
このペーパーでは、LLMベースの自動浸透テストの新しいオープンベンチマークを紹介し、この重要なギャップに対処します。
最初に、最先端のPentestGPTツールを使用して、GPT-4OおよびLLAMA 3.1-405Bを含むLLMSのパフォーマンスを評価します。
私たちの調査結果は、Llama 3.1がGPT-4Oよりも優位性を示している一方で、両方のモデルは現在、完全に自動化されたエンドツーエンドの浸透テストを実行していないことを明らかにしています。
次に、Pentestgptツールの改善に関する洞察を提供する最先端および現在のアブレーション研究を進めます。
私たちの研究は、LLMSがペンテストの各面で直面する課題を明らかにしています。
列挙、搾取、特権エスカレーション。
この作業は、AI支援サイバーセキュリティに関する知識の増加に貢献し、大規模な言語モデルを使用した自動浸透テストの将来の研究の基礎を築きます。
要約(オリジナル)
Hacking poses a significant threat to cybersecurity, inflicting billions of dollars in damages annually. To mitigate these risks, ethical hacking, or penetration testing, is employed to identify vulnerabilities in systems and networks. Recent advancements in large language models (LLMs) have shown potential across various domains, including cybersecurity. However, there is currently no comprehensive, open, end-to-end automated penetration testing benchmark to drive progress and evaluate the capabilities of these models in security contexts. This paper introduces a novel open benchmark for LLM-based automated penetration testing, addressing this critical gap. We first evaluate the performance of LLMs, including GPT-4o and Llama 3.1-405B, using the state-of-the-art PentestGPT tool. Our findings reveal that while Llama 3.1 demonstrates an edge over GPT-4o, both models currently fall short of performing fully automated, end-to-end penetration testing. Next, we advance the state-of-the-art and present ablation studies that provide insights into improving the PentestGPT tool. Our research illuminates the challenges LLMs face in each aspect of Pentesting, e.g. enumeration, exploitation, and privilege escalation. This work contributes to the growing body of knowledge on AI-assisted cybersecurity and lays the foundation for future research in automated penetration testing using large language models.
arxiv情報
著者 | Isamu Isozaki,Manil Shrestha,Rick Console,Edward Kim |
発行日 | 2025-01-30 17:50:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google