EnIGMA: Enhanced Interactive Generative Model Agent for CTF Challenges

要約

言語モデル (LM) エージェントは多くのドメインで潜在力の成長を示していますが、サイバーセキュリティにおけるその成功は、設計が単純であり、このドメインの基本的な機能が欠如しているために限定的でした。
私たちは、Capture The Flag (CTF) の課題を自律的に解決するための LM エージェントである EnIGMA を紹介します。
EnIGMA は、CTF チャレンジの成功率を向上させるために、新しいエージェント コンピューター インターフェイス (ACI) を導入しました。
私たちは、LM エージェントがこれらの課題に不可欠な対話型コマンドライン ユーティリティを実行できるようにする、新しい対話型エージェント ツールの概念を確立します。
3 つの異なるベンチマークによる 350 を超える CTF 課題に対する EnIGMA の実証分析では、新しいツールの堅牢なセットとその使用方法のデモンストレーションを提供することで、LM が複雑な問題を解決し、NYU CTF とインターコードで最先端の結果を達成できることが示されています。
CTFベンチマーク。
最後に、ACI 設計とサイバーセキュリティ タスクにおけるエージェントの動作に関する洞察について説明し、現実世界のツールを LM エージェントに適応させる必要性を強調します。

要約(オリジナル)

Although language model (LM) agents are demonstrating growing potential in many domains, their success in cybersecurity has been limited due to simplistic design and the lack of fundamental features for this domain. We present EnIGMA, an LM agent for autonomously solving Capture The Flag (CTF) challenges. EnIGMA introduces new Agent-Computer Interfaces (ACIs) to improve the success rate on CTF challenges. We establish the novel Interactive Agent Tool concept, which enables LM agents to run interactive command-line utilities essential for these challenges. Empirical analysis of EnIGMA on over 350 CTF challenges from three different benchmarks indicates that providing a robust set of new tools with demonstration of their usage helps the LM solve complex problems and achieves state-of-the-art results on the NYU CTF and Intercode-CTF benchmarks. Finally, we discuss insights on ACI design and agent behavior on cybersecurity tasks that highlight the need to adapt real-world tools for LM agents.

arxiv情報

著者 Talor Abramovich,Meet Udeshi,Minghao Shao,Kilian Lieret,Haoran Xi,Kimberly Milner,Sofija Jancheska,John Yang,Carlos E. Jimenez,Farshad Khorrami,Prashanth Krishnamurthy,Brendan Dolan-Gavitt,Muhammad Shafique,Karthik Narasimhan,Ramesh Karri,Ofir Press
発行日 2024-09-24 15:06:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク