MDENet: Multi-modal Dual-embedding Networks for Malware Open-set Recognition



– Malware open-set recognition(MOSR)は、既知のファミリーからのマルウェアサンプルの分類と、新しい未知のファミリーからのマルウェアの検出を同時に行うことを目的としています。
– 既存の研究では、各既知のファミリーの予測確率を考慮したよく訓練された分類器にしきい値ベースの検出を依存して、MOSRを達成することが主流である。
– しかしながら、我々の観察から、マルウェアサンプルの特徴分布は、既知のファミリーと未知のファミリーの間でも非常に似ていることがわかりました。したがって、得られた分類器は、未知のサンプルを既知のファミリーに対して過剰に高い確率でテストし、モデルの性能を低下させる可能性があります。
– 本論文では、さまざまなモダリティから総合的なマルウェア特徴(つまり、マルウェア画像とマルウェア文章)を活用し、マルウェア特徴空間の多様性を向上させ、下流の認識により代表的かつ識別的なものにするためのMulti-modal Dual-Embedding Networks(MDENet)を提案します。
– さらに、オープンセットの認識をさらに保証するために、融合されたマルチモーダル表現を、コントラスティブサンプリングとrhoバウンド付き包含球正則化を用いて一次元空間と付随する部分空間、すなわち、識別的空間と排他的空間に二重に埋め込んで、それぞれの空間で分類と検出を行います。
– また、以前に提案された大規模マルウェアデータセットMAL-100をマルチモーダル特徴で充実させ、改善版のMAL-100+を貢献しました。
– 幅広く使用されているマルウェアデータセットMailingと提案されたMAL-100+での実験結果は、我々の方法の有効性を示しています。


Malware open-set recognition (MOSR) aims at jointly classifying malware samples from known families and detect the ones from novel unknown families, respectively. Existing works mostly rely on a well-trained classifier considering the predicted probabilities of each known family with a threshold-based detection to achieve the MOSR. However, our observation reveals that the feature distributions of malware samples are extremely similar to each other even between known and unknown families. Thus the obtained classifier may produce overly high probabilities of testing unknown samples toward known families and degrade the model performance. In this paper, we propose the Multi-modal Dual-Embedding Networks, dubbed MDENet, to take advantage of comprehensive malware features (i.e., malware images and malware sentences) from different modalities to enhance the diversity of malware feature space, which is more representative and discriminative for down-stream recognition. Last, to further guarantee the open-set recognition, we dually embed the fused multi-modal representation into one primary space and an associated sub-space, i.e., discriminative and exclusive spaces, with contrastive sampling and rho-bounded enclosing sphere regularizations, which resort to classification and detection, respectively. Moreover, we also enrich our previously proposed large-scaled malware dataset MAL-100 with multi-modal characteristics and contribute an improved version dubbed MAL-100+. Experimental results on the widely used malware dataset Mailing and the proposed MAL-100+ demonstrate the effectiveness of our method.


著者 Jingcai Guo,Yuanyuan Xu,Wenchao Xu,Yufeng Zhan,Yuxia Sun,Song Guo
発行日 2023-05-02 08:09:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CR, cs.LG パーマリンク