AutoPenBench: Benchmarking Generative Agents for Penetration Testing

要約

大規模言語モデル (LLM) を利用したソフトウェア システムである生成 AI エージェントは、サイバーセキュリティ タスクを自動化するための有望なアプローチとして浮上しています。
中でも侵入テストは、タスクの複雑さとサイバー攻撃をシミュレートするための戦略が多様であるため、難しい分野です。
生成エージェントを使用した侵入テストの自動化に対する関心の高まりと初期の研究にもかかわらず、その評価と開発のための包括的で標準的なフレームワークの形式には大きなギャップが残っています。
このペーパーでは、自動侵入テストで生成エージェントを評価するためのオープン ベンチマークである AutoPenBench を紹介します。
33 のタスクを含む包括的なフレームワークを提示します。各タスクは、エージェントが攻撃する必要がある脆弱なシステムを表します。
試験管内シナリオや現実世界のシナリオを含め、タスクの難易度は上がっています。
一般的および特定のマイルストーンを使用してエージェントのパフォーマンスを評価します。これにより、標準化された方法で結果を比較し、テスト対象のエージェントの限界を理解できるようになります。
人間の対話をサポートする完全自律型と半自律型の 2 つのエージェント アーキテクチャをテストすることで、AutoPenBench の利点を示します。
それらのパフォーマンスと制限を比較します。
たとえば、完全自律型エージェントのパフォーマンスは不十分で、ベンチマーク全体で 21% の成功率 (SR) を達成し、単純なタスクの 27% と実際のタスクは 1 つだけ解決しました。
対照的に、支援されたエージェントは 64% の SR という大幅な改善を示しました。
AutoPenBench を使用すると、GPT-4o や OpenAI o1 などのさまざまな LLM がエージェントのタスク完了能力にどのような影響を与えるかを観察することもできます。
私たちは、当社のベンチマークが、共通の基盤で侵入テストエージェントを比較するための標準的で柔軟なフレームワークとのギャップを埋めるものであると信じています。
AutoPenBench を https://github.com/lucagioacchini/auto-pen-bench で利用できるようにすることで、研究コミュニティとともに AutoPenBench を拡張したいと考えています。

要約(オリジナル)

Generative AI agents, software systems powered by Large Language Models (LLMs), are emerging as a promising approach to automate cybersecurity tasks. Among the others, penetration testing is a challenging field due to the task complexity and the diverse strategies to simulate cyber-attacks. Despite growing interest and initial studies in automating penetration testing with generative agents, there remains a significant gap in the form of a comprehensive and standard framework for their evaluation and development. This paper introduces AutoPenBench, an open benchmark for evaluating generative agents in automated penetration testing. We present a comprehensive framework that includes 33 tasks, each representing a vulnerable system that the agent has to attack. Tasks are of increasing difficulty levels, including in-vitro and real-world scenarios. We assess the agent performance with generic and specific milestones that allow us to compare results in a standardised manner and understand the limits of the agent under test. We show the benefits of AutoPenBench by testing two agent architectures: a fully autonomous and a semi-autonomous supporting human interaction. We compare their performance and limitations. For example, the fully autonomous agent performs unsatisfactorily achieving a 21% Success Rate (SR) across the benchmark, solving 27% of the simple tasks and only one real-world task. In contrast, the assisted agent demonstrates substantial improvements, with 64% of SR. AutoPenBench allows us also to observe how different LLMs like GPT-4o or OpenAI o1 impact the ability of the agents to complete the tasks. We believe that our benchmark fills the gap with a standard and flexible framework to compare penetration testing agents on a common ground. We hope to extend AutoPenBench along with the research community by making it available under https://github.com/lucagioacchini/auto-pen-bench.

arxiv情報

著者 Luca Gioacchini,Marco Mellia,Idilio Drago,Alexander Delsanto,Giuseppe Siracusano,Roberto Bifulco
発行日 2024-10-28 17:05:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク