CNS-Net: Conservative Novelty Synthesizing Network for Malware Recognition in an Open-set Scenario

要約

タイトル:CNS-Net:オープンセットシナリオにおけるマルウェア認識のための保守的な新規性合成ネットワーク

要約:
– MOSR(マルウェアオープンセット認識)と呼ばれる、既知のマルウェアファミリと新規未知のマルウェアファミリの両方に対するマルウェア認識の課題について研究している。
– これまでの作業は、マルウェアファミリが分類器に既知であるクローズセットシナリオでのテストのみを前提としてきた。つまり、テストファミリは訓練ファミリのサブセットまたは最大で同一である。
– しかしながら、新規未知のマルウェアファミリが現実世界のアプリケーションで頻繁に出現し、テストセットにも不明なファミリが含まれるオープンセットシナリオでのマルウェアインスタンスの認識が必要となってきた。しかし、これはサイバーセキュリティ領域でほとんど調査されていない。
– MOSRの実用的なソリューションの1つは、既知マルウェアファミリの予測確率分布の分散から、単一の分類器(例えば、ニューラルネットワーク)によって既知マルウェアファミリの共同分類および未知マルウェアファミリの検出を検討することである。
– しかしながら、従来の十分に訓練された分類器は、特に未知対既知のマルウェアファミリなど、インスタンスの特徴分布が類似している場合には、出力で過剰に高い認識確率を得る傾向があり、新しい未知のマルウェアファミリの認識が劇的に低下する。
– 本論文では、マルウェアインスタンスを保守的に合成して未知のマルウェアファミリを模倣し、分類器のより堅牢なトレーニングをサポートできる新しいモデルを提案している。
– また、我々は、不足していた大規模なオープンセットマルウェアベンチマークデータセットを補うために、MAL-100という新しい大規模マルウェアデータセットを構築している。
– 2つの広く使用されているマルウェアデータセットとMAL-100の実験結果は、他の代表的な方法と比較して、当社のモデルの有効性を示している。

要約(オリジナル)

We study the challenging task of malware recognition on both known and novel unknown malware families, called malware open-set recognition (MOSR). Previous works usually assume the malware families are known to the classifier in a close-set scenario, i.e., testing families are the subset or at most identical to training families. However, novel unknown malware families frequently emerge in real-world applications, and as such, require to recognize malware instances in an open-set scenario, i.e., some unknown families are also included in the test-set, which has been rarely and non-thoroughly investigated in the cyber-security domain. One practical solution for MOSR may consider jointly classifying known and detecting unknown malware families by a single classifier (e.g., neural network) from the variance of the predicted probability distribution on known families. However, conventional well-trained classifiers usually tend to obtain overly high recognition probabilities in the outputs, especially when the instance feature distributions are similar to each other, e.g., unknown v.s. known malware families, and thus dramatically degrades the recognition on novel unknown malware families. In this paper, we propose a novel model that can conservatively synthesize malware instances to mimic unknown malware families and support a more robust training of the classifier. Moreover, we also build a new large-scale malware dataset, named MAL-100, to fill the gap of lacking large open-set malware benchmark dataset. Experimental results on two widely used malware datasets and our MAL-100 demonstrate the effectiveness of our model compared with other representative methods.

arxiv情報

著者 Jingcai Guo,Song Guo,Shiheng Ma,Yuxia Sun,Yuanyuan Xu
発行日 2023-05-02 07:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.LG パーマリンク