Prompt Engineering-assisted Malware Dynamic Analysis Using GPT-4

要約

動的分析手法は、シェル化されたマルウェア、ラップされたマルウェア、または難読化されたマルウェアを効果的に特定し、コンピュータへの侵入を防ぎます。
動的なマルウェアの動作を表す重要な表現として、連続する API 呼び出しで構成される API (アプリケーション プログラミング インターフェイス) シーケンスが、動的分析手法の主要な機能となってきています。
API シーケンスに基づいてマルウェアを検出するための深層学習モデルは数多くありますが、それらのモデルによって生成される API 呼び出し表現の品質には限界があります。
これらのモデルは未知の API 呼び出しの表現を生成できないため、検出パフォーマンスと一般化の両方が弱まります。
さらに、API 呼び出しの概念ドリフト現象も顕著です。
これらの問題に取り組むために、GPT-4 を使用した迅速なエンジニアリング支援マルウェア動的分析を導入します。
この方法では、GPT-4 を使用して、API シーケンス内の各 API 呼び出しの説明テキストを作成します。
その後、事前トレーニングされた言語モデル BERT を使用してテキストの表現を取得し、そこから API シーケンスの表現を導き出します。
理論的には、この提案された方法は、生成プロセス中のデータセットのトレーニングの必要性を除いて、すべての API 呼び出しの表現を生成できます。
この表現を利用して、CNN ベースの検出モデルが特徴を抽出するように設計されています。
提案されたモデルのパフォーマンスを検証するために 5 つのベンチマーク データセットを採用します。
実験結果は、提案された検出アルゴリズムが最先端の方法 (TextCNN) よりも優れたパフォーマンスを発揮することを示しています。
具体的には、クロスデータベース実験や少数ショット学習実験において、提案モデルは優れた検出性能とほぼ100%のマルウェア再現率を実現し、優れた汎化性能を実証しました。
コードは github.com/yan-scnu/Prompted_Dynamic_Detection から入手できます。

要約(オリジナル)

Dynamic analysis methods effectively identify shelled, wrapped, or obfuscated malware, thereby preventing them from invading computers. As a significant representation of dynamic malware behavior, the API (Application Programming Interface) sequence, comprised of consecutive API calls, has progressively become the dominant feature of dynamic analysis methods. Though there have been numerous deep learning models for malware detection based on API sequences, the quality of API call representations produced by those models is limited. These models cannot generate representations for unknown API calls, which weakens both the detection performance and the generalization. Further, the concept drift phenomenon of API calls is prominent. To tackle these issues, we introduce a prompt engineering-assisted malware dynamic analysis using GPT-4. In this method, GPT-4 is employed to create explanatory text for each API call within the API sequence. Afterward, the pre-trained language model BERT is used to obtain the representation of the text, from which we derive the representation of the API sequence. Theoretically, this proposed method is capable of generating representations for all API calls, excluding the necessity for dataset training during the generation process. Utilizing the representation, a CNN-based detection model is designed to extract the feature. We adopt five benchmark datasets to validate the performance of the proposed model. The experimental results reveal that the proposed detection algorithm performs better than the state-of-the-art method (TextCNN). Specifically, in cross-database experiments and few-shot learning experiments, the proposed model achieves excellent detection performance and almost a 100% recall rate for malware, verifying its superior generalization performance. The code is available at: github.com/yan-scnu/Prompted_Dynamic_Detection.

arxiv情報

著者 Pei Yan,Shunquan Tan,Miaohui Wang,Jiwu Huang
発行日 2023-12-13 17:39:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク