Improving Android Malware Detection Through Data Augmentation Using Wasserstein Generative Adversarial Networks

要約

Generative Adversarial Networks (GAN) は、データ拡張やマルウェア検出など、さまざまなアプリケーションにわたってその多用途性を実証しています。
この研究では、Android マルウェア検出用のモデルをトレーニングするために GAN で生成されたデータを利用することの有効性を調査しています。
Android アプリケーションにはかなりのストレージ要件があることを考慮して、この研究では、GAN を使用してデータを合成的に表現し、それによってストレージ需要を削減する方法を提案しています。
提案された方法論には、既存のデータセットから抽出された特徴の画像表現を作成することが含まれます。
次に、GAN モデルを使用して、現実的な合成グレースケール画像で構成されるより広範なデータセットを生成します。
その後、この合成データセットを利用して、これまでに確認されていない Android マルウェア アプリケーションを識別するように設計された畳み込みニューラル ネットワーク (CNN) をトレーニングします。
この研究には、実際の画像でトレーニングされた場合と GAN によって生成された合成画像でトレーニングされた場合の CNN のパフォーマンスの比較分析が含まれています。
さらに、この研究では、Wasserstein Generative Adversarial Network (WGAN) と Deep Convolutional Generative Adversarial Network (DCGAN) の間のパフォーマンスの差異を調査しています。
調査は、分類モデルの有効性に対する画像サイズとマルウェア難読化の影響の調査にまで及びます。
この研究で実装されたデータ拡張アプローチにより、データセットに応じて、分類モデルのパフォーマンスが 1.5% から 7% まで大幅に向上しました。
達成された最高の F1 スコアは 0.975 に達しました。
キーワード — 敵対的生成ネットワーク、Android マルウェア、データ拡張、Wasserstein 敵対的生成ネットワーク

要約(オリジナル)

Generative Adversarial Networks (GANs) have demonstrated their versatility across various applications, including data augmentation and malware detection. This research explores the effectiveness of utilizing GAN-generated data to train a model for the detection of Android malware. Given the considerable storage requirements of Android applications, the study proposes a method to synthetically represent data using GANs, thereby reducing storage demands. The proposed methodology involves creating image representations of features extracted from an existing dataset. A GAN model is then employed to generate a more extensive dataset consisting of realistic synthetic grayscale images. Subsequently, this synthetic dataset is utilized to train a Convolutional Neural Network (CNN) designed to identify previously unseen Android malware applications. The study includes a comparative analysis of the CNN’s performance when trained on real images versus synthetic images generated by the GAN. Furthermore, the research explores variations in performance between the Wasserstein Generative Adversarial Network (WGAN) and the Deep Convolutional Generative Adversarial Network (DCGAN). The investigation extends to studying the impact of image size and malware obfuscation on the classification model’s effectiveness. The data augmentation approach implemented in this study resulted in a notable performance enhancement of the classification model, ranging from 1.5% to 7%, depending on the dataset. The highest achieved F1 score reached 0.975. Keywords–Generative Adversarial Networks, Android Malware, Data Augmentation, Wasserstein Generative Adversarial Network

arxiv情報

著者 Kawana Stalin,Mikias Berhanu Mekoya
発行日 2024-03-05 14:33:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク