DiverseVul: A New Vulnerable Source Code Dataset for Deep Learning Based Vulnerability Detection

要約

タイトル: 深層学習ベースの脆弱性検出のための新しい脆弱性ソースコードデータセットであるDiverseVul

要約:
– 新しい脆弱性ソースコードデータセットを提案および公開する。
– セキュリティ問題のウェブサイトをクロールし、対応するプロジェクトから脆弱性修正コミットとソースコードを抽出し、データセットをキュレーションする。
– 新しいデータセットには、150のCWE、26,635の脆弱な関数、および7,861のコミットから抽出された352,606の非脆弱関数が含まれる。以前のデータセットの305のプロジェクトをカバーする。
– トレーニングデータの多様性とボリュームを増やすことで、深層学習モデルの脆弱性検出の性能が向上することを示す。
– 新しいデータセットを以前のデータセットと組み合わせて、深層学習を使用してソフトウェアの脆弱性を検出するための課題と有望な研究方向について分析を行う。
– 4つのファミリーに属する11つのモデルアーキテクチャを研究する。その結果、深層学習はまだ脆弱性検出には準備ができておらず、高い偽陽性率、低いF1スコア、及び困難なCWEの検出の難しさがあることを示す。
– LLM(Large Language Models)は、手動特徴工学を伴うGraph Neural Networks(GNN)を上回る、脆弱性検出の未来であることが特定される。
– さらに、ソースコード特有の事前トレーニング目的を開発することは、脆弱性検出性能を向上させる有望な研究方向であることが発見される。

要約(オリジナル)

We propose and release a new vulnerable source code dataset. We curate the dataset by crawling security issue websites, extracting vulnerability-fixing commits and source codes from the corresponding projects. Our new dataset contains 150 CWEs, 26,635 vulnerable functions, and 352,606 non-vulnerable functions extracted from 7,861 commits. Our dataset covers 305 more projects than all previous datasets combined. We show that increasing the diversity and volume of training data improves the performance of deep learning models for vulnerability detection. Combining our new dataset with previous datasets, we present an analysis of the challenges and promising research directions of using deep learning for detecting software vulnerabilities. We study 11 model architectures belonging to 4 families. Our results show that deep learning is still not ready for vulnerability detection, due to high false positive rate, low F1 score, and difficulty of detecting hard CWEs. In particular, we demonstrate an important generalization challenge for the deployment of deep learning-based models. However, we also identify hopeful future research directions. We demonstrate that large language models (LLMs) are the future for vulnerability detection, outperforming Graph Neural Networks (GNNs) with manual feature engineering. Moreover, developing source code specific pre-training objectives is a promising research direction to improve the vulnerability detection performance.

arxiv情報

著者 Yizheng Chen,Zhoujie Ding,Xinyun Chen,David Wagner
発行日 2023-04-01 23:29:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CR, cs.LG, cs.SE パーマリンク