Towards Novel Malicious Packet Recognition: A Few-Shot Learning Approach

要約

ネットワークの複雑さと接続性が高まるにつれて、新しいマルウェア検出アプローチの必要性が不可欠になっています。
従来のセキュリティ防御は、今日のサイバー攻撃の高度な戦術に対して効果が薄れてきています。
ディープ パケット インスペクション (DPI) は、ネットワーク セキュリティを強化するための主要なテクノロジーとして登場し、単純なメタデータ分析を超えたネットワーク トラフィックの詳細な分析を提供します。
DPI はパケット ヘッダーだけでなく、その中のペイロード コンテンツも検査し、ネットワークを通過するデータについての徹底的な洞察を提供します。
この研究では、大規模言語モデル (LLM) と少数ショット学習を活用して、少数のラベル サンプルで新しい未知のマルウェア タイプを正確に認識する新しいアプローチを提案しています。
私たちが提案するアプローチでは、既知のマルウェア タイプに対して事前トレーニングされた LLM を使用して、パケットから埋め込みを抽出します。
その後、埋め込みは、未確認のマルウェア タイプのいくつかのラベル付きサンプルと並行して使用されます。
この手法は、モデルをさまざまなマルウェア表現に適応させるように設計されており、さらに、トレーニング済みのクラスや未確認のクラスごとに堅牢な埋め込みを生成できるようになります。
LLM からのエンベディングの抽出に続いて、少数ショット学習を利用して、最小限のラベル付きデータでパフォーマンスを向上させます。
2 つの有名なデータセットを利用した私たちの評価では、ネットワーク トラフィックとモノのインターネット (IoT) 環境内のマルウェアの種類を特定することに焦点を当てました。
私たちのアプローチでは、2 つのデータセット全体で、さまざまな種類のマルウェアに対して平均精度 86.35%、F1 スコア 86.40% という有望な結果が得られました。

要約(オリジナル)

As the complexity and connectivity of networks increase, the need for novel malware detection approaches becomes imperative. Traditional security defenses are becoming less effective against the advanced tactics of today’s cyberattacks. Deep Packet Inspection (DPI) has emerged as a key technology in strengthening network security, offering detailed analysis of network traffic that goes beyond simple metadata analysis. DPI examines not only the packet headers but also the payload content within, offering a thorough insight into the data traversing the network. This study proposes a novel approach that leverages a large language model (LLM) and few-shot learning to accurately recognizes novel, unseen malware types with few labels samples. Our proposed approach uses a pretrained LLM on known malware types to extract the embeddings from packets. The embeddings are then used alongside few labeled samples of an unseen malware type. This technique is designed to acclimate the model to different malware representations, further enabling it to generate robust embeddings for each trained and unseen classes. Following the extraction of embeddings from the LLM, few-shot learning is utilized to enhance performance with minimal labeled data. Our evaluation, which utilized two renowned datasets, focused on identifying malware types within network traffic and Internet of Things (IoT) environments. Our approach shows promising results with an average accuracy of 86.35% and F1-Score of 86.40% on different malware types across the two datasets.

arxiv情報

著者 Kyle Stein,Andrew A. Mahyari,Guillermo Francia III,Eman El-Sheikh
発行日 2024-09-17 15:02:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク