How Far Have We Gone in Vulnerability Detection Using Large Language Models

要約

ソフトウェアがますます複雑になり、脆弱性が発生しやすくなっているため、脆弱性の自動検出は非常に重要ですが、課題となっています。
さまざまなタスクにおける大規模言語モデル (LLM) の大きな成功を考慮すると、脆弱性検出における LLM の有効性への期待が高まっています。
ただし、脆弱性検出におけるその可能性については定量的な理解がまだ得られていません。
このギャップを埋めるために、包括的な脆弱性ベンチマーク VulBench を導入します。
このベンチマークは、幅広い CTF (Capture-the-Flag) 課題と実際のアプリケーションからの高品質データを集約しており、脆弱性の種類とその根本原因を詳しく説明する各脆弱な機能の注釈が付いています。
16 個の LLM と 6 個の最先端 (SOTA) 深層学習ベースのモデルおよび静的アナライザーを含む実験を通じて、いくつかの LLM が脆弱性検出において従来の深層学習アプローチを上回り、LLM の未開発の可能性が明らかになったことがわかりました。
この研究は、ソフトウェア セキュリティを強化するための LLM の理解と利用に貢献します。

要約(オリジナル)

As software becomes increasingly complex and prone to vulnerabilities, automated vulnerability detection is critically important, yet challenging. Given the significant successes of large language models (LLMs) in various tasks, there is growing anticipation of their efficacy in vulnerability detection. However, a quantitative understanding of their potential in vulnerability detection is still missing. To bridge this gap, we introduce a comprehensive vulnerability benchmark VulBench. This benchmark aggregates high-quality data from a wide range of CTF (Capture-the-Flag) challenges and real-world applications, with annotations for each vulnerable function detailing the vulnerability type and its root cause. Through our experiments encompassing 16 LLMs and 6 state-of-the-art (SOTA) deep learning-based models and static analyzers, we find that several LLMs outperform traditional deep learning approaches in vulnerability detection, revealing an untapped potential in LLMs. This work contributes to the understanding and utilization of LLMs for enhanced software security.

arxiv情報

著者 Zeyu Gao,Hao Wang,Yuchen Zhou,Wenyu Zhu,Chao Zhang
発行日 2023-12-22 14:07:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク