Optimized Deep Learning Models for Malware Detection under Concept Drift

要約

悪意のあるファイルの検出における機械学習モデルの有望な結果にもかかわらず、それらは絶えず進化しているため、概念のドリフトの問題に直面しています。
新しいファイルのデータ分布がトレーニング ファイルとは異なるため、モデルを頻繁に更新する必要があるため、時間の経過とともにパフォーマンスが低下します。
この研究では、ベースライン ニューラル ネットワークをドリフトに対して改善するためのモデルに依存しないプロトコルを提案します。
我々は、可能な限り最新の検証セットを使用した特徴量削減とトレーニングの重要性を示し、ドリフトに対してより効果的な古典的なバイナリ クロス エントロピーを改良した、ドリフト耐性のあるバイナリ クロス エントロピーという名前の損失関数を提案します。
私たちは、2018 年に公開された EMBER データセットでモデルをトレーニングし、2020 年から 2023 年の間に収集された最近の悪意のあるファイルのデータセットで評価しました。私たちの改良されたモデルは、ベースライン モデルよりも 15.2% 多くのマルウェアを検出するという有望な結果を示しています。

要約(オリジナル)

Despite the promising results of machine learning models in malicious files detection, they face the problem of concept drift due to their constant evolution. This leads to declining performance over time, as the data distribution of the new files differs from the training one, requiring frequent model update. In this work, we propose a model-agnostic protocol to improve a baseline neural network against drift. We show the importance of feature reduction and training with the most recent validation set possible, and propose a loss function named Drift-Resilient Binary Cross-Entropy, an improvement to the classical Binary Cross-Entropy more effective against drift. We train our model on the EMBER dataset, published in2018, and evaluate it on a dataset of recent malicious files, collected between 2020 and 2023. Our improved model shows promising results, detecting 15.2% more malware than a baseline model.

arxiv情報

著者 William Maillet,Benjamin Marais
発行日 2024-08-01 13:53:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク