Leveraging LSTM and GAN for Modern Malware Detection

要約

マルウェアの急増は、危険という点では気候変動が生態系に及ぼす影響と同等のサイバー空間です。
サイバーセキュリティテクノロジーとスタッフトレーニングへの多額の投資の場合、国際社会はサイバーセキュリティの脅威との永遠の戦争に閉じ込められることになります。
マルウェアの多様な形式と変化する側面は、サイバーセキュリティ担当者がこの問題に対処するために検出や軽減などのさまざまなアプローチを採用する限界を押し広げ続けています。
シグネチャベースの検出や動作分析などの古い慣例の一部は、マルウェアの種類の急速な進化に適応するのが遅いです。
したがって、このペーパーでは、マルウェア検出の精度と速度を向上させるために、深層学習モデル、LSTM ネットワーク、および GAN​​ を利用することを提案します。
AI テクノロジーは、生のバイトストリーム ベースのデータとディープ ラーニング アーキテクチャを活用し、急速に成長している最先端のテクノロジーであり、従来の方法よりも優れた精度とパフォーマンスを提供します。
LSTM と GAN モデルの統合は、データの合成生成に使用される手法であり、学習データセットの拡張につながり、その結果、検出精度が向上します。
この論文では、提示されたモデルのトレーニングおよび評価セットとして、100 万を超えるマルウェアの一意のサンプルを含む VirusShare データセットを使用しています。
トークン化、拡張、モデルのトレーニングなどの徹底的なデータ準備を通じて、LSTM モデルと GAN モデルは、直接分類子と比較してタスクのパフォーマンスが向上します。
研究結果は 98% の精度で明らかにされ、ディープラーニングの効率がプロアクティブなサイバーセキュリティ防御において決定的な役割を果たすことを示しています。
それとは別に、この論文では、バイアスを軽減し、モデルの複雑さを高める方法として、アンサンブル学習とモデル融合手法の出力について研究しています。

要約(オリジナル)

The malware booming is a cyberspace equal to the effect of climate change to ecosystems in terms of danger. In the case of significant investments in cybersecurity technologies and staff training, the global community has become locked up in the eternal war with cyber security threats. The multi-form and changing faces of malware are continuously pushing the boundaries of the cybersecurity practitioners employ various approaches like detection and mitigate in coping with this issue. Some old mannerisms like signature-based detection and behavioral analysis are slow to adapt to the speedy evolution of malware types. Consequently, this paper proposes the utilization of the Deep Learning Model, LSTM networks, and GANs to amplify malware detection accuracy and speed. A fast-growing, state-of-the-art technology that leverages raw bytestream-based data and deep learning architectures, the AI technology provides better accuracy and performance than the traditional methods. Integration of LSTM and GAN model is the technique that is used for the synthetic generation of data, leading to the expansion of the training datasets, and as a result, the detection accuracy is improved. The paper uses the VirusShare dataset which has more than one million unique samples of the malware as the training and evaluation set for the presented models. Through thorough data preparation including tokenization, augmentation, as well as model training, the LSTM and GAN models convey the better performance in the tasks compared to straight classifiers. The research outcomes come out with 98% accuracy that shows the efficiency of deep learning plays a decisive role in proactive cybersecurity defense. Aside from that, the paper studies the output of ensemble learning and model fusion methods as a way to reduce biases and lift model complexity.

arxiv情報

著者 Ishita Gupta,Sneha Kumari,Priya Jha,Mohona Ghosh
発行日 2024-05-07 14:57:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク