Is Your AI-Generated Code Really Secure? Evaluating Large Language Models on Secure Code Generation with CodeSecEval

要約

大規模言語モデル (LLM) は、コード生成とコード修復に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵をもたらしました。
ただし、GitHub などのオープンソース リポジトリからのサニタイズされていないデータを使用したトレーニングでは、セキュリティの脆弱性が不用意に伝播するリスクが高まります。
コード LLM の安全性を調査する多くの研究にもかかわらず、そのセキュリティ機能に包括的に対処するにはまだギャップが残っています。
この研究では、コード LLM のセキュリティ面を正確に評価し、強化することを目的とした包括的な研究を紹介することを目的としています。
私たちの研究をサポートするために、CodeSecEval を導入します。これは、180 の個別のサンプルで 44 の重大な脆弱性タイプに対処するように設計された、細心の注意を払って厳選されたデータセットです。
CodeSecEval は、セキュリティに重点を置き、コード生成とコード修復という 2 つの重要なタスクにおけるコード モデルの自動評価の基盤として機能します。
私たちの実験結果では、現在のモデルではコード生成と修復プロセスの両方でセキュリティ問題を見落とすことが多く、その結果、脆弱なコードが作成されてしまうことが明らかになりました。
これに応じて、脆弱性を認識した情報と安全でないコードの説明を活用して、これらのセキュリティの脆弱性を軽減するさまざまな戦略を提案します。
さらに、私たちの調査結果は、特定の種類の脆弱性がモデルのパフォーマンスに特に問題をもたらし、現実世界のアプリケーションでの有効性に影響を与えることを浮き彫りにしています。
これらの調査結果に基づいて、私たちの研究はソフトウェア エンジニアリング コミュニティにプラスの影響を与え、LLM のトレーニングと利用のための改善された方法の開発を促し、それによってより安全で信頼性の高いモデルの展開につながると考えています。

要約(オリジナル)

Large language models (LLMs) have brought significant advancements to code generation and code repair, benefiting both novice and experienced developers. However, their training using unsanitized data from open-source repositories, like GitHub, raises the risk of inadvertently propagating security vulnerabilities. Despite numerous studies investigating the safety of code LLMs, there remains a gap in comprehensively addressing their security features. In this work, we aim to present a comprehensive study aimed at precisely evaluating and enhancing the security aspects of code LLMs. To support our research, we introduce CodeSecEval, a meticulously curated dataset designed to address 44 critical vulnerability types with 180 distinct samples. CodeSecEval serves as the foundation for the automatic evaluation of code models in two crucial tasks: code generation and code repair, with a strong emphasis on security. Our experimental results reveal that current models frequently overlook security issues during both code generation and repair processes, resulting in the creation of vulnerable code. In response, we propose different strategies that leverage vulnerability-aware information and insecure code explanations to mitigate these security vulnerabilities. Furthermore, our findings highlight that certain vulnerability types particularly challenge model performance, influencing their effectiveness in real-world applications. Based on these findings, we believe our study will have a positive impact on the software engineering community, inspiring the development of improved methods for training and utilizing LLMs, thereby leading to safer and more trustworthy model deployment.

arxiv情報

著者 Jiexin Wang,Xitong Luo,Liuwen Cao,Hongkui He,Hailin Huang,Jiayuan Xie,Adam Jatowt,Yi Cai
発行日 2024-07-02 16:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク