要約
コード脆弱性検出 (CVD) は、システム セキュリティの問題に対処して防止するために不可欠であり、ソフトウェアのセキュリティを確保する上で重要な役割を果たします。
これまでの学習ベースの脆弱性検出方法は、中規模のシーケンス モデルを微調整するか、小規模なニューラル ネットワークを最初からトレーニングするかのいずれかに依存していました。
大規模な事前トレーニング済み言語モデル (LLM) の最近の進歩により、コードの理解と生成を含むさまざまなコード インテリジェンス タスクにおける顕著な機能が実証されました。
ただし、コードの脆弱性を検出する際の LLM の有効性はほとんど調査されていません。
この研究は、広く使用されている 4 つのオープンソース LLM を使用して、CVD タスク用に LLM を微調整することによってギャップを調査することを目的としています。
また、比較のために、他の 5 つの以前のグラフベースまたは中規模のシーケンス モデルも実装します。
実験は、短いサンプルと長いサンプルの両方の部分を含む、一般的に使用される 5 つの CVD データセットに対して行われます。
さらに、以前の研究ではほとんど研究されていなかった、クラスの不均衡の問題と、異なる長さのサンプルでのモデルのパフォーマンスを調査するための定量的な実験を実行します。
コミュニティをより促進するために、この研究のすべてのコードとリソースを https://github.com/SakiRinn/LLM4CVD および https://huggingface.co/datasets/xuefen/VulResource でオープンソース化します。
要約(オリジナル)
Code vulnerability detection (CVD) is essential for addressing and preventing system security issues, playing a crucial role in ensuring software security. Previous learning-based vulnerability detection methods rely on either fine-tuning medium-size sequence models or training smaller neural networks from scratch. Recent advancements in large pre-trained language models (LLMs) have showcased remarkable capabilities in various code intelligence tasks including code understanding and generation. However, the effectiveness of LLMs in detecting code vulnerabilities is largely under-explored. This work aims to investigate the gap by fine-tuning LLMs for the CVD task, involving four widely-used open-source LLMs. We also implement other five previous graph-based or medium-size sequence models for comparison. Experiments are conducted on five commonly-used CVD datasets, including both the part of short samples and long samples. In addition, we conduct quantitative experiments to investigate the class imbalance issue and the model’s performance on samples of different lengths, which are rarely studied in previous works. To better facilitate communities, we open-source all codes and resources of this study in https://github.com/SakiRinn/LLM4CVD and https://huggingface.co/datasets/xuefen/VulResource.
arxiv情報
著者 | Xuefeng Jiang,Lvhua Wu,Sheng Sun,Jia Li,Jingjing Xue,Yuwei Wang,Tingting Wu,Min Liu |
発行日 | 2024-12-24 08:20:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google