要約
現実世界のソフトウェア システムの脆弱性を検出して悪用する能力に焦点を当て、自動ソフトウェア悪用における AI モデルの機能とリスクを評価するための新しいベンチマークを紹介します。
DARPA の AI Cyber Challenge (AIxCC) フレームワークと、広く使用されている Nginx Web サーバーを意図的に変更したバージョンである Nginx チャレンジ プロジェクトを使用して、OpenAI の o1-preview と o1-mini、Anthropic の Claude-3.5-sonnet など、いくつかの主要な言語モデルを評価します。
-20241022 および Claude-3.5-sonnet-20240620、Google DeepMind の
Gemini-1.5-pro、および OpenAI の初期の GPT-4o モデル。
私たちの調査結果では、これらのモデルは成功率と効率が大幅に異なり、o1-preview は 64.71 パーセントという最高の成功率を達成し、o1-mini と Claude-3.5-sonnet-20241022 は費用対効果は高いものの、成功率は低い代替モデルを提供していることが明らかになりました。
このベンチマークは、自動化された悪用ツールによってもたらされる AI サイバー リスクを体系的に評価するための基盤を確立します。
要約(オリジナル)
We introduce a new benchmark for assessing AI models’ capabilities and risks in automated software exploitation, focusing on their ability to detect and exploit vulnerabilities in real-world software systems. Using DARPA’s AI Cyber Challenge (AIxCC) framework and the Nginx challenge project, a deliberately modified version of the widely used Nginx web server, we evaluate several leading language models, including OpenAI’s o1-preview and o1-mini, Anthropic’s Claude-3.5-sonnet-20241022 and Claude-3.5-sonnet-20240620, Google DeepMind’s Gemini-1.5-pro, and OpenAI’s earlier GPT-4o model. Our findings reveal that these models vary significantly in their success rates and efficiency, with o1-preview achieving the highest success rate of 64.71 percent and o1-mini and Claude-3.5-sonnet-20241022 providing cost-effective but less successful alternatives. This benchmark establishes a foundation for systematically evaluating the AI cyber risk posed by automated exploitation tools.
arxiv情報
著者 | Dan Ristea,Vasilios Mavroudis,Chris Hicks |
発行日 | 2024-12-09 15:29:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google