LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs’ Vulnerability Reasoning

要約

大規模言語モデル (LLM) は、脆弱性の検出を含むさまざまなタスクにおいて大きな可能性を示しています。
ただし、この分野における現在の取り組みは予備的なものであり、LLM の脆弱性推論能力がモデル自体に由来するのか、それとも知識検索やツールのサポートなどの外部支援に由来するのかについては明確ではありません。
この文書は、LLM の脆弱性推論を、脆弱性知識の採用、コンテキスト情報の取得、構造化された出力生成などの他の機能から分離することを目的としています。
LLM4Vuln は、LLM の脆弱性推論機能を分離して評価し、他の機能強化と組み合わせた場合の改善を検討する統合評価フレームワークです。
私たちは、Solidity と Java で 97 件のグラウンドトゥルース脆弱性と 97 件の非脆弱性ケースを対象とした制御実験を実施し、4 つの LLM (GPT-4、GPT-3.5、Mixtral、および Llama 3) にわたる合計 9,312 のシナリオでテストしました。
私たちの調査結果は、知識の強化、コンテキストの補足、プロンプトスキーム、およびモデルのさまざまな影響を明らかにしています。
さらに、4 つのパイロット バグ報奨金プログラムで 14 件のゼロデイ脆弱性を特定し、その結果、3,576 ドルの報奨金が支払われました。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant potential in various tasks, including vulnerability detection. However, current efforts in this area are preliminary, lacking clarity on whether LLMs’ vulnerability reasoning capabilities stem from the models themselves or external aids such as knowledge retrieval and tooling support. This paper aims to isolate LLMs’ vulnerability reasoning from other capabilities, such as vulnerability knowledge adoption, context information retrieval, and structured output generation. We introduce LLM4Vuln, a unified evaluation framework that separates and assesses LLMs’ vulnerability reasoning capabilities and examines improvements when combined with other enhancements. We conducted controlled experiments with 97 ground-truth vulnerabilities and 97 non-vulnerable cases in Solidity and Java, testing them in a total of 9,312 scenarios across four LLMs (GPT-4, GPT-3.5, Mixtral, and Llama 3). Our findings reveal the varying impacts of knowledge enhancement, context supplementation, prompt schemes, and models. Additionally, we identified 14 zero-day vulnerabilities in four pilot bug bounty programs, resulting in \$3,576 in bounties.

arxiv情報

著者 Yuqiang Sun,Daoyuan Wu,Yue Xue,Han Liu,Wei Ma,Lyuye Zhang,Yang Liu,Yingjiu Li
発行日 2024-09-05 15:03:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.SE パーマリンク