Classification and Online Clustering of Zero-Day Malware


マルウェアは常に大量に生成されており、良性のサンプルと区別するだけでなく、マルウェアファミリーに分類する必要があります。この目的のためには、既存のマルウェアファミリがどのように開発されているかを調査し、新たなファミリを調査する必要がある。本論文では、受信した悪意のあるサンプルをオンラインで処理し、既存のファミリに割り当てたり、新しいファミリからのサンプルの場合はクラスタリングしたりすることに焦点を当てる。我々は、EMBERデータセットに含まれる7つの一般的なマルウェア・ファミリ(トレーニングセットに含まれる4つのファミリと、テストセットに含まれる追加の3つの新しいファミリ)を用いて実験を行った。多層パーセプトロンの分類スコアに基づいて、どのサンプルを分類し、どのサンプルを新しいマルウェア ファミリにクラスタリングするかを決定した。その結果,ストリーミングデータの 97.21%が分類され,95.33%のバランス精度が得られた.次に、自己組織化マップを使用して残りのデータをクラスタリングし、4クラスタの純度47.61%から10クラスタの純度77.68%を達成した。これらの結果は、本アプローチがゼロデイマルウェアのマルウェアファミリーへの分類とクラスタリングに適用できる可能性があることを示している。


A large amount of new malware is constantly being generated, which must not only be distinguished from benign samples, but also classified into malware families. For this purpose, investigating how existing malware families are developed and examining emerging families need to be explored. This paper focuses on the online processing of incoming malicious samples to assign them to existing families or, in the case of samples from new families, to cluster them. We experimented with seven prevalent malware families from the EMBER dataset, four in the training set and three additional new families in the test set. Based on the classification score of the multilayer perceptron, we determined which samples would be classified and which would be clustered into new malware families. We classified 97.21% of streaming data with a balanced accuracy of 95.33%. Then, we clustered the remaining data using a self-organizing map, achieving a purity from 47.61% for four clusters to 77.68% for ten clusters. These results indicate that our approach has the potential to be applied to the classification and clustering of zero-day malware into malware families.


著者 Olha Jurečková,Martin Jureček,Mark Stamp,Fabio Di Troia,Róbert Lórencz
発行日 2023-08-03 12:04:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CR, cs.LG パーマリンク