要約
大規模言語モデル (LLM) には、大量のプログラム コードを含むトレーニング コーパスがあり、モデルのコード理解と生成機能が大幅に向上します。
ただし、プログラムの脆弱性の検出、コードに関連するより具体的なタスク、およびこのより特殊なシナリオにおける LLM のパフォーマンスの評価に関する、健全な包括的な研究はまだ不足しています。
脆弱性分析における一般的な課題に対処するために、私たちの研究では、LLM の脆弱性検出機能を評価するために特別に設計された新しいベンチマークである VulDetectBench を導入しました。
このベンチマークは、段階的に難易度を上げていく 5 つのタスクを通じて、脆弱性を特定、分類、特定する LLM の能力を包括的に評価します。
私たちは 17 のモデル (オープンソースとクローズドソースの両方) のパフォーマンスを評価しました。その結果、既存のモデルは脆弱性の特定と分類に関連するタスクでは 80% 以上の精度を達成できますが、特定のより詳細な脆弱性分析タスクでは依然として不十分であることがわかりました。
精度が 30% 未満であるため、専門的な脆弱性マイニングに貴重な補助情報を提供することが困難になります。
当社のベンチマークは、脆弱性検出という特定のタスクにおいてさまざまなレベルでさまざまな LLM の機能を効果的に評価し、コード セキュリティのこの重要な領域における将来の研究と改善のための基盤を提供します。
VulDetectBench は、https://github.com/Sweetaroo/VulDetectBench で公開されています。
要約(オリジナル)
Large Language Models (LLMs) have training corpora containing large amounts of program code, greatly improving the model’s code comprehension and generation capabilities. However, sound comprehensive research on detecting program vulnerabilities, a more specific task related to code, and evaluating the performance of LLMs in this more specialized scenario is still lacking. To address common challenges in vulnerability analysis, our study introduces a new benchmark, VulDetectBench, specifically designed to assess the vulnerability detection capabilities of LLMs. The benchmark comprehensively evaluates LLM’s ability to identify, classify, and locate vulnerabilities through five tasks of increasing difficulty. We evaluate the performance of 17 models (both open- and closed-source) and find that while existing models can achieve over 80% accuracy on tasks related to vulnerability identification and classification, they still fall short on specific, more detailed vulnerability analysis tasks, with less than 30% accuracy, making it difficult to provide valuable auxiliary information for professional vulnerability mining. Our benchmark effectively evaluates the capabilities of various LLMs at different levels in the specific task of vulnerability detection, providing a foundation for future research and improvements in this critical area of code security. VulDetectBench is publicly available at https://github.com/Sweetaroo/VulDetectBench.
arxiv情報
著者 | Yu Liu,Lang Gao,Mingxin Yang,Yu Xie,Ping Chen,Xiaojin Zhang,Wei Chen |
発行日 | 2024-08-21 14:51:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google