要約
特に重要なソフトウェアコンポーネントでは、ソースコードの脆弱性を特定することが重要です。
静的分析、動的分析、正式な検証、最近の大規模な言語モデルなどの既存の方法は、セキュリティの欠陥を検出するために広く使用されています。
このペーパーでは、さまざまな方法の脆弱性検出機能を評価するためのベンチマークフレームワークであるCastle(CWE Automated Securityテストと低レベルの評価)を紹介します。
25の一般的なCWEをカバーする250のマイクロベンチマークプログラムの手作りのデータセットを使用して、13の静的分析ツール、10 LLM、および2つの正式な検証ツールを評価します。
公正な比較を確保するための新しい評価メトリックであるCastle Scoreを提案します。
私たちの結果は重要な違いを明らかにします。ESBMC(正式な検証ツール)は、誤検知を最小限に抑えますが、暗号化やSQL注入などのモデルチェックを超えた脆弱性と闘っています。
静的アナライザーは、誤検知が高く、開発者の手動検証努力の増加に悩まされています。
LLMSは、小さなコードスニペットの脆弱性を識別するときに、Castle Datasetで非常によく機能します。
ただし、それらの精度は低下し、コードサイズが大きくなるにつれて幻覚が増加します。
これらの結果は、LLMが将来のセキュリティソリューション、特にコード完了フレームワーク内で極めて重要な役割を果たすことができることを示唆しています。ここでは、脆弱性を防ぐためのリアルタイムのガイダンスを提供できます。
データセットにはhttps://github.com/castle-benchmarkにアクセスできます。
要約(オリジナル)
Identifying vulnerabilities in source code is crucial, especially in critical software components. Existing methods such as static analysis, dynamic analysis, formal verification, and recently Large Language Models are widely used to detect security flaws. This paper introduces CASTLE (CWE Automated Security Testing and Low-Level Evaluation), a benchmarking framework for evaluating the vulnerability detection capabilities of different methods. We assess 13 static analysis tools, 10 LLMs, and 2 formal verification tools using a hand-crafted dataset of 250 micro-benchmark programs covering 25 common CWEs. We propose the CASTLE Score, a novel evaluation metric to ensure fair comparison. Our results reveal key differences: ESBMC (a formal verification tool) minimizes false positives but struggles with vulnerabilities beyond model checking, such as weak cryptography or SQL injection. Static analyzers suffer from high false positives, increasing manual validation efforts for developers. LLMs perform exceptionally well in the CASTLE dataset when identifying vulnerabilities in small code snippets. However, their accuracy declines, and hallucinations increase as the code size grows. These results suggest that LLMs could play a pivotal role in future security solutions, particularly within code completion frameworks, where they can provide real-time guidance to prevent vulnerabilities. The dataset is accessible at https://github.com/CASTLE-Benchmark.
arxiv情報
著者 | Richard A. Dubniczky,Krisztofer Zoltán Horvát,Tamás Bisztray,Mohamed Amine Ferrag,Lucas C. Cordeiro,Norbert Tihanyi |
発行日 | 2025-03-31 16:07:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google