要約
大規模な言語モデル(LLM)エージェントは、サイバー攻撃を自律的に実施することができるようになり、既存のアプリケーションに大きな脅威をもたらします。
この成長するリスクは、LLMエージェントがWebアプリケーションの脆弱性を活用する能力を評価するための現実世界のベンチマークの緊急の必要性を強調しています。
ただし、既存のベンチマークは、旗の競争を抽象化するか、包括的なカバレッジの欠如に限定されているため、不足しています。
現実世界の脆弱性のベンチマークを構築するには、エクスプロイトを再現するための専門的な専門知識と、予測不可能な脅威を評価するための体系的なアプローチの両方が含まれます。
この課題に対処するために、批判的過激性の共通の脆弱性と露出に基づいて、実際のサイバーセキュリティベンチマークであるCVE-Benchを紹介します。
CVE-Benchでは、LLMエージェントが実際の条件を模倣するシナリオで脆弱なWebアプリケーションを活用することを可能にするサンドボックスフレームワークを設計し、その悪用の効果的な評価も提供します。
私たちの評価は、最先端のエージェントフレームワークが脆弱性の最大13%を解決できることを示しています。
要約(オリジナル)
Large language model (LLM) agents are increasingly capable of autonomously conducting cyberattacks, posing significant threats to existing applications. This growing risk highlights the urgent need for a real-world benchmark to evaluate the ability of LLM agents to exploit web application vulnerabilities. However, existing benchmarks fall short as they are limited to abstracted Capture the Flag competitions or lack comprehensive coverage. Building a benchmark for real-world vulnerabilities involves both specialized expertise to reproduce exploits and a systematic approach to evaluating unpredictable threats. To address this challenge, we introduce CVE-Bench, a real-world cybersecurity benchmark based on critical-severity Common Vulnerabilities and Exposures. In CVE-Bench, we design a sandbox framework that enables LLM agents to exploit vulnerable web applications in scenarios that mimic real-world conditions, while also providing effective evaluation of their exploits. Our evaluation shows that the state-of-the-art agent framework can resolve up to 13% of vulnerabilities.
arxiv情報
著者 | Yuxuan Zhu,Antony Kellermann,Dylan Bowman,Philip Li,Akul Gupta,Adarsh Danda,Richard Fang,Conner Jensen,Eric Ihli,Jason Benn,Jet Geronimo,Avi Dhir,Sudhit Rao,Kaicheng Yu,Twm Stone,Daniel Kang |
発行日 | 2025-03-21 17:32:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google