CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation

要約

大規模言語モデル (LLM) は、コード作成を生成または支援することで開発者を大幅に支援し、さまざまなタスク全体の生産性を向上させてきました。
正しくないコードを特定することは多くの場合簡単ですが、機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとってはより困難です。これは、LLM で生成されたコードを使用することにかなりのセキュリティ リスクをもたらし、機能の正しさの両方を評価する堅牢な評価ベンチマークの必要性を強調します。
そしてセキュリティ。
Cyber​​SecEval や SecurityEval などの現在のベンチマークはこれを解決しようとしていますが、不明確で非実用的な仕様によって妨げられており、機能とセキュリティの両方を正確に評価できません。
これらの欠陥に対処するために、LLM による安全なコード生成の評価を強化するために設計された新しい結果主導型評価フレームワークである CWEval を導入します。
このフレームワークは、コードの機能性だけでなく、高品質のタスク仕様と高精度を提供する結果主導型のテストオラクルと同時に、そのセキュリティも評価します。
CWEval は、多言語のセキュリティ クリティカルなコーディング ベンチマークである CWEval-bench と組み合わせることで、LLM で生成されたコードに対する厳密な実証的セキュリティ評価を提供し、以前のベンチマークの欠点を克服します。
私たちの評価を通じて、CWEval は、LLM によって生成された機能的ではあるが安全でないコードの顕著な部分を明らかにし、以前の評価の深刻な不正確さを示し、最終的には安全なコード生成の分野に大きく貢献します。
私たちはアーティファクトを https://github.com/Co1lin/CWEval でオープンソース化しています。

要約(オリジナル)

Large Language Models (LLMs) have significantly aided developers by generating or assisting in code writing, enhancing productivity across various tasks. While identifying incorrect code is often straightforward, detecting vulnerabilities in functionally correct code is more challenging, especially for developers with limited security knowledge, which poses considerable security risks of using LLM-generated code and underscores the need for robust evaluation benchmarks that assess both functional correctness and security. Current benchmarks like CyberSecEval and SecurityEval attempt to solve it but are hindered by unclear and impractical specifications, failing to assess both functionality and security accurately. To tackle these deficiencies, we introduce CWEval, a novel outcome-driven evaluation framework designed to enhance the evaluation of secure code generation by LLMs. This framework not only assesses code functionality but also its security simultaneously with high-quality task specifications and outcome-driven test oracles which provides high accuracy. Coupled with CWEval-bench, a multilingual, security-critical coding benchmark, CWEval provides a rigorous empirical security evaluation on LLM-generated code, overcoming previous benchmarks’ shortcomings. Through our evaluations, CWEval reveals a notable portion of functional but insecure code produced by LLMs, and shows a serious inaccuracy of previous evaluations, ultimately contributing significantly to the field of secure code generation. We open-source our artifact at: https://github.com/Co1lin/CWEval .

arxiv情報

著者 Jinjun Peng,Leyi Cui,Kele Huang,Junfeng Yang,Baishakhi Ray
発行日 2025-01-14 15:27:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE パーマリンク