Revisiting the Performance of Deep Learning-Based Vulnerability Detection on Realistic Datasets

要約

ソフトウェアの脆弱性が日常的なソフトウェアシステムに与える影響は大きい。脆弱性検出のためにディープラーニングモデルが提案されているにもかかわらず、その信頼性には疑問が残る。先行する評価では、最大99%という高い想起/F1スコアが示されているが、これらのモデルは、特に修正コミットだけでなくコードベース全体で評価した場合、実用的なシナリオでは性能が低い。本稿では、脆弱性検出モデルを評価するための、実世界のシナリオを表す包括的なデータセットであるReal-Vulを紹介する。DeepWukong、LineVul、ReVeal、IVDetectを評価すると、精度が最大95ポイント、F1スコアが最大91ポイント低下し、性能が大幅に低下することがわかる。さらに、モデルの性能は脆弱性の特性によって変動し、パス解決や予測可能な戻り値よりも、情報漏えいやコードインジェクションの方がF1スコアが高くなっています。この結果は、ディープラーニングベースの脆弱性検出を実用的な環境で展開する前に対処する必要がある、重大なパフォーマンスギャップを浮き彫りにしている。オーバーフィッティングが重要な問題として特定され、性能を最大30%向上させる可能性のある補強技術が提案されている。より良いモデル評価のためのデータセット作成アプローチ、Real-Vulデータセット、実環境で苦戦する深層学習モデルの経験的証拠などが貢献する。

要約(オリジナル)

The impact of software vulnerabilities on everyday software systems is significant. Despite deep learning models being proposed for vulnerability detection, their reliability is questionable. Prior evaluations show high recall/F1 scores of up to 99%, but these models underperform in practical scenarios, particularly when assessed on entire codebases rather than just the fixing commit. This paper introduces Real-Vul, a comprehensive dataset representing real-world scenarios for evaluating vulnerability detection models. Evaluating DeepWukong, LineVul, ReVeal, and IVDetect shows a significant drop in performance, with precision decreasing by up to 95 percentage points and F1 scores by up to 91 points. Furthermore, Model performance fluctuates based on vulnerability characteristics, with better F1 scores for information leaks or code injection than for path resolution or predictable return values. The results highlight a significant performance gap that needs addressing before deploying deep learning-based vulnerability detection in practical settings. Overfitting is identified as a key issue, and an augmentation technique is proposed, potentially improving performance by up to 30%. Contributions include a dataset creation approach for better model evaluation, Real-Vul dataset, and empirical evidence of deep learning models struggling in real-world settings.

arxiv情報

著者 Partha Chakraborty,Krishna Kanth Arumugam,Mahmoud Alfadel,Meiyappan Nagappan,Shane McIntosh
発行日 2024-07-03 13:34:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG, cs.SE, I.2 パーマリンク