要約
サイバーセキュリティの重要なコンポーネントである侵入テストは、通常、脆弱性を見つけるために多大な時間と労力を必要とします。
この分野の初心者は、コミュニティや専門家との協力的なアプローチから恩恵を受けることがよくあります。
これに対処するために、私たちは CIPHER (倫理研究者向けサイバーセキュリティ インテリジェント ペネトレーション テスト ヘルパー) を開発しています。これは、ペネトレーション テスト タスクを支援するために特別に訓練された大規模な言語モデルです。
私たちは、脆弱なマシン、ハッキング手法、オープンソースの侵入テスト ツールに関する 300 件を超える高品質の文書を使用して CIPHER をトレーニングしました。
さらに、大規模な言語モデルに合わせて完全に自動化された侵入テスト シミュレーション ベンチマークを確立するために、侵入テストの記録を拡張する新しい方法である調査結果、アクション、推論、結果 (FARR) フロー拡張を導入しました。
このアプローチは、従来のサイバーセキュリティ Q&A ベンチマークの大きなギャップを埋め、AI の技術的知識、推論能力、動的侵入テスト シナリオでの実用性を評価するための現実的かつ厳格な基準を提供します。
当社の評価では、CIPHER は、同様のサイズの他のオープンソース侵入テスト モデルや、Llama 3 70B や Qwen1.5 72B Chat などのさらに大きな最先端のモデルと比較して、正確な提案応答を提供するという点で最高の総合パフォーマンスを達成しました。
非常識な難易度のマシンセットアップについて。
これは、一般的な LLM の現在の機能では、侵入テスト プロセスを通じてユーザーを効果的にガイドするには不十分であることを示しています。
また、FARR フロー拡張の結果を使用した、スケーリングとより優れたベンチマークの開発による改善の可能性についても説明します。
私たちのベンチマークは https://github.com/ibndias/CIPHER で公開されます。
要約(オリジナル)
Penetration testing, a critical component of cybersecurity, typically requires extensive time and effort to find vulnerabilities. Beginners in this field often benefit from collaborative approaches with the community or experts. To address this, we develop CIPHER (Cybersecurity Intelligent Penetration-testing Helper for Ethical Researchers), a large language model specifically trained to assist in penetration testing tasks. We trained CIPHER using over 300 high-quality write-ups of vulnerable machines, hacking techniques, and documentation of open-source penetration testing tools. Additionally, we introduced the Findings, Action, Reasoning, and Results (FARR) Flow augmentation, a novel method to augment penetration testing write-ups to establish a fully automated pentesting simulation benchmark tailored for large language models. This approach fills a significant gap in traditional cybersecurity Q\&A benchmarks and provides a realistic and rigorous standard for evaluating AI’s technical knowledge, reasoning capabilities, and practical utility in dynamic penetration testing scenarios. In our assessments, CIPHER achieved the best overall performance in providing accurate suggestion responses compared to other open-source penetration testing models of similar size and even larger state-of-the-art models like Llama 3 70B and Qwen1.5 72B Chat, particularly on insane difficulty machine setups. This demonstrates that the current capabilities of general LLMs are insufficient for effectively guiding users through the penetration testing process. We also discuss the potential for improvement through scaling and the development of better benchmarks using FARR Flow augmentation results. Our benchmark will be released publicly at https://github.com/ibndias/CIPHER.
arxiv情報
著者 | Derry Pratama,Naufal Suryanto,Andro Aprila Adiputra,Thi-Thu-Huong Le,Ahmada Yusril Kadiptya,Muhammad Iqbal,Howon Kim |
発行日 | 2024-08-21 14:24:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google