Classification and Online Clustering of Zero-Day Malware


タイトル: ゼロデイマルウェアの分類とオンラインクラスタリング

– 新しいマルウェアが大量に生成され続けており、これらを正常なサンプルから区別するだけではなく、マルウェアファミリーに分類する必要がある。
– 既存のマルウェアファミリーがどのように開発され、新しいファミリーが登場するかを調査することが必要。
– 本論文では、新しいファミリーからのサンプルをクラスタリングするために、オンライン処理を中心に調査を行った。
– EMBERデータセットから7つのマルウェアファミリーについて実験を行い、トレーニングセットに4つ、テストセットに3つの新しいファミリーを用いた。
– 多層パーセプトロンの分類スコアに基づいて、どのサンプルが分類され、どのサンプルが新しいマルウェアファミリーにクラスタリングされるかを決定した。
– ストリーミングデータの97.21%をバランスの取れた精度95.33%で分類し、残りのデータを自己組織化マップを用いてクラスタリングし、4つのクラスターについては47.61%、10つのクラスターについては77.68%の純度を達成した。
– これらの結果は、本手法がゼロデイマルウェアをマルウェアファミリーに分類およびクラスタリングするために適用可能である可能性があることを示唆している。


A large amount of new malware is constantly being generated, which must not only be distinguished from benign samples, but also classified into malware families. For this purpose, investigating how existing malware families are developed and examining emerging families need to be explored. This paper focuses on the online processing of incoming malicious samples to assign them to existing families or, in the case of samples from new families, to cluster them. We experimented with seven prevalent malware families from the EMBER dataset, with four in the training set and three additional new families in the test set. Based on the classification score of the multilayer perceptron, we determined which samples would be classified and which would be clustered into new malware families. We classified 97.21% of streaming data with a balanced accuracy of 95.33%. Then, we clustered the remaining data using a self-organizing map, achieving a purity from 47.61% for four clusters to 77.68% for ten clusters. These results indicate that our approach has the potential to be applied to the classification and clustering of zero-day malware into malware families.


著者 Olha Jurečková,Martin Jureček,Róbert Lórencz
発行日 2023-05-01 00:00:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CR, cs.LG パーマリンク