LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs’ Vulnerability Reasoning

要約

大規模言語モデル (LLM) は、脆弱性の検出など人間レベルの知能を必要とするタスクを含む、多くの下流タスクに対して大きな可能性を示しています。
しかし、脆弱性検出に LLM を使用する最近の試みは、対象となる LLM の脆弱性推論能力 (それがモデル自体に由来するのか、ツールのサポートを呼び出すなどの外部支援に由来するのかにかかわらず) についての深い理解が不足しているため、まだ予備段階です。
ポートして脆弱性の知識を取得します。
この論文では、LLM の脆弱性推論機能を他の機能から切り離すことを目的としています。これには、追加情報を積極的に検索する機能 (SOTA モデルの関数呼び出しなど)、関連する脆弱性の知識を採用する機能 (ベクトルベースの機能など) が含まれます。
照合と検索など)、指示に従って構造化された結果を出力します。
この目的を達成するために、私たちは LLM4Vuln という名前の統合評価フレームワークを提案します。このフレームワークは、LLM の脆弱性推論を他の機能から分離し、LLM の脆弱性推論が他の機能の強化と組み合わせたときにどのように強化されるかを評価します。
LLM4Vuln の有効性を実証するために、私たちは、2023 年 8 月から 11 月にかけて Code4rena で高リスクとして広範囲に監査された 75 のグラウンドトゥルース スマート コントラクトの脆弱性を使用した制御実験を設計し、3 つの代表的な LLM にわたる 4,950 の異なるシナリオでテストしました。
(GPT-4、Mixtral、および Code Llama)。
私たちの結果は、知識の強化、コンテキストの補足、プロンプトスキーム、およびモデルのさまざまな効果に関する 10 件の調査結果を明らかにしただけでなく、1,000 ドルを超える賞金が授与された 2 つのパイロットバグ報奨金プログラムで 9 件のゼロデイ脆弱性を特定することも可能にしました。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant poten- tial for many downstream tasks, including those requiring human- level intelligence, such as vulnerability detection. However, recent attempts to use LLMs for vulnerability detection are still prelim- inary, as they lack an in-depth understanding of a subject LLM’s vulnerability reasoning capability – whether it originates from the model itself or from external assistance, such as invoking tool sup- port and retrieving vulnerability knowledge. In this paper, we aim to decouple LLMs’ vulnerability reason- ing capability from their other capabilities, including the ability to actively seek additional information (e.g., via function calling in SOTA models), adopt relevant vulnerability knowledge (e.g., via vector-based matching and retrieval), and follow instructions to out- put structured results. To this end, we propose a unified evaluation framework named LLM4Vuln, which separates LLMs’ vulnerability reasoning from their other capabilities and evaluates how LLMs’ vulnerability reasoning could be enhanced when combined with the enhancement of other capabilities. To demonstrate the effectiveness of LLM4Vuln, we have designed controlled experiments using 75 ground-truth smart contract vulnerabilities, which were extensively audited as high-risk on Code4rena from August to November 2023, and tested them in 4,950 different scenarios across three represen- tative LLMs (GPT-4, Mixtral, and Code Llama). Our results not only reveal ten findings regarding the varying effects of knowledge en- hancement, context supplementation, prompt schemes, and models but also enable us to identify 9 zero-day vulnerabilities in two pilot bug bounty programs with over 1,000 USD being awarded.

arxiv情報

著者 Yuqiang Sun,Daoyuan Wu,Yue Xue,Han Liu,Wei Ma,Lyuye Zhang,Miaolei Shi,Yang Liu
発行日 2024-01-29 14:32:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.SE パーマリンク