要約
大規模言語モデル (LLM) は、ソフトウェアの脆弱性を検出するための強力なツールとして提案されており、通常、この目的のために脆弱性固有の知識を LLM に提供するためにタスク固有の微調整が使用されます。
ただし、従来のフルパラメータ微調整は、数十億のパラメータを含む最新の複雑な LLM にとっては非効率的です。
ソフト プロンプト チューニングは、一般的な場合に LLM を微調整するためのより効率的な代替手段として提案されています。
ただし、純粋なソフト プロンプト チューニングではソース コードがプレーン テキストとして扱われるため、ソース コードに固有の構造情報が失われます。
一方、この問題に対処することを目的としたグラフ強化ソフト プロンプト チューニング手法は、主に一般的なグラフ関連タスク向けに設計されており、隣接関係情報に重点を置いているため、コード グラフ内の豊富なセマンティック情報を保持することができません。
また、グラフとテキストの相互作用を考慮しながら計算効率を確保することもできません。
したがって、このホワイト ペーパーでは、CGP チューニングと呼ばれる、コード グラフで強化された構造認識型の脆弱性検出用の新しいソフト プロンプト チューニング方法を紹介します。
革新的なタイプ認識埋め込みを採用して、コード グラフ内の豊富なセマンティック情報をキャプチャするとともに、グラフとテキストの相互作用を組み込みながら線形の計算コストを達成する斬新で効率的なクロスモーダル アラインメント モジュールを採用しています。
提案された CGP チューニングは、最新の DiverseVul データセットと最新のオープンソース コード LLM、CodeLlama および CodeGemma で評価されます。
実験結果は、CGP-Tuning が、長いソース コードに対する脆弱性検出機能を損なうことなく、精度において最高の最先端の方法を平均 3.5 パーセント上回っていることを示しています。
要約(オリジナル)
Large language models (LLMs) have been proposed as powerful tools for detecting software vulnerabilities, where task-specific fine-tuning is typically employed to provide vulnerability-specific knowledge to the LLMs for this purpose. However, traditional full-parameter fine-tuning is inefficient for modern, complex LLMs, which contain billions of parameters. Soft prompt tuning has been suggested as a more efficient alternative for fine-tuning LLMs in general cases. However, pure soft prompt tuning treats source code as plain text, losing structural information inherent in source code. Meanwhile, graph-enhanced soft prompt tuning methods, which aim to address this issue, are unable to preserve the rich semantic information within code graphs, as they are primarily designed for general graph-related tasks and focus more on adjacency information. They also fail to ensure computational efficiency while accounting for graph-text interactions. This paper, therefore, introduces a new code graph-enhanced, structure-aware soft prompt tuning method for vulnerability detection, referred to as CGP-Tuning. It employs innovative type-aware embeddings to capture the rich semantic information within code graphs, along with a novel and efficient cross-modal alignment module that achieves linear computational cost while incorporating graph-text interactions. The proposed CGP-Tuning is evaluated on the latest DiverseVul dataset and the most recent open-source code LLMs, CodeLlama and CodeGemma. Experimental results demonstrate that CGP-Tuning outperforms the best state-of-the-art method by an average of 3.5 percentage points in accuracy, without compromising its vulnerability detection capabilities for long source code.
arxiv情報
著者 | Ruijun Feng,Hammond Pearce,Pietro Liguori,Yulei Sui |
発行日 | 2025-01-08 13:56:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google