Leveraging Large Language Models to Detect npm Malicious Packages

要約

既存の悪意のあるコード検出技術では、さまざまなマルウェア パターンを検出するために複数のツールを統合する必要があり、多くの場合、高い誤分類率に悩まされています。
したがって、高度でより自動化されたアプローチを採用することで、悪意のあるコードの検出技術を強化し、高精度と低い誤分類率を達成できる可能性があります。
この研究の目的は、悪意のあるコードの検出における大規模言語モデル (LLM) の有効性を実証的に研究することで、セキュリティ アナリストによる悪意のあるパッケージの検出を支援することです。
悪意のあるコードを検出するための悪意のあるコード レビュー ワークフローである SocketAI を紹介します。
SocketAI の有効性を評価するために、5,115 個の npm パッケージのベンチマーク データセットを利用します。そのうち 2,180 個のパッケージには悪意のあるコードが含まれています。
私たちは、悪意のある Javascript コードを検出するために先行研究で開発された 39 のカスタム CodeQL ルールを使用して、最先端の CodeQL 静的分析ツールを使用して GPT-3 モデルと GPT-4 モデルのベースライン比較を実施しました。
また、事前スクリーニングとしての静的分析の有効性を SocketAI ワークフローと比較し、分析が必要なファイルの数を測定します。
およびそれに伴うコスト。
さらに、ワークフローによって検出または見逃される悪意のあるアクティビティの種類を理解するために、定性的な調査を実行しました。
ベースライン比較では、精度と F1 スコアがそれぞれ静的分析より 16% および 9% 向上していることがわかります。
GPT-4 は 99% の精度と 97% の F1 スコアでより高い精度を実現します。一方、GPT-3 は 91% の精度と 94% の F1 スコアでよりコスト効率の高いバランスを提供します。
静的アナライザーを使用してファイルを事前スクリーニングすると、LLM 分析が必要なファイルの数が 77.9% 削減され、コストが GPT-3 で 60.9%、GPT-4 で 76.1% 削減されます。
当社の定性分析では、検出された悪意のあるパッケージの上位として、データ盗難、任意のコードの実行、および不審なドメイン カテゴリが特定されました。

要約(オリジナル)

Existing malicious code detection techniques demand the integration of multiple tools to detect different malware patterns, often suffering from high misclassification rates. Therefore, malicious code detection techniques could be enhanced by adopting advanced, more automated approaches to achieve high accuracy and a low misclassification rate. The goal of this study is to aid security analysts in detecting malicious packages by empirically studying the effectiveness of Large Language Models (LLMs) in detecting malicious code. We present SocketAI, a malicious code review workflow to detect malicious code. To evaluate the effectiveness of SocketAI, we leverage a benchmark dataset of 5,115 npm packages, of which 2,180 packages have malicious code. We conducted a baseline comparison of GPT-3 and GPT-4 models with the state-of-the-art CodeQL static analysis tool, using 39 custom CodeQL rules developed in prior research to detect malicious Javascript code. We also compare the effectiveness of static analysis as a pre-screener with SocketAI workflow, measuring the number of files that need to be analyzed. and the associated costs. Additionally, we performed a qualitative study to understand the types of malicious activities detected or missed by our workflow. Our baseline comparison demonstrates a 16% and 9% improvement over static analysis in precision and F1 scores, respectively. GPT-4 achieves higher accuracy with 99% precision and 97% F1 scores, while GPT-3 offers a more cost-effective balance at 91% precision and 94% F1 scores. Pre-screening files with a static analyzer reduces the number of files requiring LLM analysis by 77.9% and decreases costs by 60.9% for GPT-3 and 76.1% for GPT-4. Our qualitative analysis identified data theft, execution of arbitrary code, and suspicious domain categories as the top detected malicious packages.

arxiv情報

著者 Nusrat Zahan,Philipp Burckhardt,Mikola Lysenko,Feross Aboukhadijeh,Laurie Williams
発行日 2025-01-06 16:29:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク