Evaluating AI cyber capabilities with crowdsourced elicitation

要約

AIシステムがますます有能になるにつれて、攻撃的なサイバーの可能性を理解することは、情報に基づいたガバナンスと責任ある展開にとって重要です。
ただし、能力を正確にバインドすることは困難であり、いくつかの以前の評価により劇的に過小評価されています。
AISから最大のタスク固有のパフォーマンスを抽出する技術は「AI誘発」と呼ばれ、今日の安全団体は通常、社内でそれを実施しています。
この論文では、社内の誘発作業に代わるものとして、クラウドソーシングの誘発努力を探ります。
AI対人間(400チーム)とサイバー黙示録(8000チーム)の2つのCapture The Flag(CTF)コンペティションでオープンアクセスAIトラックをホストしています。
AIチームは、両方のイベントで優れたパフォーマンスを達成し、合計7500ドルの賞金でそれぞれ上位5%と上位10%にランクされています。
この印象的なパフォーマンスは、オープンマーケットの誘発が社内の誘発を効果的に補完する可能性があることを示唆しています。
私たちは、新たなAI能力に対するタイムリーで費用対効果の高い状況認識を維持するための実用的なメカニズムとして、誘発賞を提案します。
オープンエレキシテーションのもう1つの利点は、人間のパフォーマンスデータを大規模に収集するオプションです。
METRの方法論を適用して、AIエージェントは、中央値の人間のCTF参加者から1時間以下の労力を必要とするサイバー課題を確実に解決できることがわかりました。

要約(オリジナル)

As AI systems become increasingly capable, understanding their offensive cyber potential is critical for informed governance and responsible deployment. However, it’s hard to accurately bound their capabilities, and some prior evaluations dramatically underestimated them. The art of extracting maximum task-specific performance from AIs is called ‘AI elicitation’, and today’s safety organizations typically conduct it in-house. In this paper, we explore crowdsourcing elicitation efforts as an alternative to in-house elicitation work. We host open-access AI tracks at two Capture The Flag (CTF) competitions: AI vs. Humans (400 teams) and Cyber Apocalypse (8000 teams). The AI teams achieve outstanding performance at both events, ranking top-5% and top-10% respectively for a total of \$7500 in bounties. This impressive performance suggests that open-market elicitation may offer an effective complement to in-house elicitation. We propose elicitation bounties as a practical mechanism for maintaining timely, cost-effective situational awareness of emerging AI capabilities. Another advantage of open elicitations is the option to collect human performance data at scale. Applying METR’s methodology, we found that AI agents can reliably solve cyber challenges requiring one hour or less of effort from a median human CTF participant.

arxiv情報

著者 Artem Petrov,Dmitrii Volkov
発行日 2025-05-27 17:45:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク