NYU CTF Dataset: A Scalable Open-Source Benchmark Dataset for Evaluating LLMs in Offensive Security

要約

大規模言語モデル (LLM) は現在、さまざまなドメインに導入されています。
ただし、サイバーセキュリティにおけるキャプチャ ザ フラッグ (CTF) の課題を解決する能力は十分に評価されていません。
これに対処するために、私たちは、これらのアプリケーション向けに特別に設計されたスケーラブルなオープンソースのベンチマーク データベースを作成することにより、CTF の課題を解決する際に LLM を評価する新しい方法を開発しました。
このデータベースには、LLM テストと適応学習用のメタデータが含まれており、人気のあるコンテストからのさまざまな CTF 課題を編集しています。
LLM の高度な関数呼び出し機能を利用して、強化されたワークフローと外部ツール呼び出しのサポートを備えた完全に自動化されたシステムを構築します。
当社のベンチマーク データセットと自動化されたフレームワークにより、ブラック ボックス モデルとオープンソース モデルの両方を含む 5 つの LLM のパフォーマンスを評価できます。
この研究は、対話型のサイバーセキュリティ タスクおよび自動化されたタスク計画における LLM の効率を向上させるための将来の研究の基礎を築きます。
特殊なデータセットを提供することで、私たちのプロジェクトは、脆弱性の検出と解決に対する LLM ベースのアプローチを開発、テスト、改良するための理想的なプラットフォームを提供します。
これらの課題に関して LLM を評価し、人間のパフォーマンスと比較することで、現実世界の脅威管理を実行する AI 主導のサイバーセキュリティ ソリューションの可能性についての洞察が得られます。
私たちは、プレイグラウンド自動化フレームワーク https://github.com/NYU-LLM-CTF/llm_ctf_automation とともに、データセットをオープンソースとして公開 https://github.com/NYU-LLM-CTF/LLM_CTF_Database します。

要約(オリジナル)

Large Language Models (LLMs) are being deployed across various domains today. However, their capacity to solve Capture the Flag (CTF) challenges in cybersecurity has not been thoroughly evaluated. To address this, we develop a novel method to assess LLMs in solving CTF challenges by creating a scalable, open-source benchmark database specifically designed for these applications. This database includes metadata for LLM testing and adaptive learning, compiling a diverse range of CTF challenges from popular competitions. Utilizing the advanced function calling capabilities of LLMs, we build a fully automated system with an enhanced workflow and support for external tool calls. Our benchmark dataset and automated framework allow us to evaluate the performance of five LLMs, encompassing both black-box and open-source models. This work lays the foundation for future research into improving the efficiency of LLMs in interactive cybersecurity tasks and automated task planning. By providing a specialized dataset, our project offers an ideal platform for developing, testing, and refining LLM-based approaches to vulnerability detection and resolution. Evaluating LLMs on these challenges and comparing with human performance yields insights into their potential for AI-driven cybersecurity solutions to perform real-world threat management. We make our dataset open source to public https://github.com/NYU-LLM-CTF/LLM_CTF_Database along with our playground automated framework https://github.com/NYU-LLM-CTF/llm_ctf_automation.

arxiv情報

著者 Minghao Shao,Sofija Jancheska,Meet Udeshi,Brendan Dolan-Gavitt,Haoran Xi,Kimberly Milner,Boyuan Chen,Max Yin,Siddharth Garg,Prashanth Krishnamurthy,Farshad Khorrami,Ramesh Karri,Muhammad Shafique
発行日 2024-08-21 17:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CY, cs.LG パーマリンク