High-resolution Image-based Malware Classification using Multiple Instance Learning

要約

この論文では、敵対的なバイナリ拡大を克服するために、高解像度のグレースケール画像とマルチインスタンス学習を使用してマルウェアをファミリーに分類する新しい方法を提案します。
視覚化ベースのマルウェア分類の現在の方法は、大きく可変サイズの画像を処理するためのサイズ変更など、入力の非可逆変換に大きく依存しています。
実証的な分析と実験を通じて、これらのアプローチが悪用できる重大な情報損失を引き起こすことが示されています。
提案されたソリューションは、画像をパッチに分割し、畳み込みニューラル ネットワークと注意集約関数を使用した埋め込みベースのマルチ インスタンス学習を分類に使用します。
この実装は Microsoft マルウェア分類データセットで評価され、ベースラインの $22.8\%$ と比較して、敵対的に拡大されたサンプルで最大 $96.6\%$ の精度を達成しました。
Python コードは、オンライン https://github.com/timppeters/MIL-Malware-Images で入手できます。

要約(オリジナル)

This paper proposes a novel method of classifying malware into families using high-resolution greyscale images and multiple instance learning to overcome adversarial binary enlargement. Current methods of visualisation-based malware classification largely rely on lossy transformations of inputs such as resizing to handle the large, variable-sized images. Through empirical analysis and experimentation, it is shown that these approaches cause crucial information loss that can be exploited. The proposed solution divides the images into patches and uses embedding-based multiple instance learning with a convolutional neural network and an attention aggregation function for classification. The implementation is evaluated on the Microsoft Malware Classification dataset and achieves accuracies of up to $96.6\%$ on adversarially enlarged samples compared to the baseline of $22.8\%$. The Python code is available online at https://github.com/timppeters/MIL-Malware-Images .

arxiv情報

著者 Tim Peters,Hikmat Farhat
発行日 2023-11-21 18:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク