Efficient Concept Drift Handling for Batch Android Malware Detection Models

要約

Android アプリは急速に進化する性質を持っており、マルウェア検出システムで採用されている静的バッチ機械学習アルゴリズムはすぐに陳腐化してしまうため、大きな課題となっています。
この課題にもかかわらず、既存の文献では、Drebin、DroidDet、MaMaDroid などの多くの高度な Android マルウェア検出アプローチが静的モデルに依存しているため、この問題への対処には限定的な注意が払われています。
この研究では、再トレーニング技術がどのようにして検出器の機能を長期にわたって維持できるかを示します。
特に、検出器の効率とパフォーマンスにおける 2 つの側面、1) モデルが再トレーニングされる頻度、2) 再トレーニングに使用されるデータの影響を分析します。
最初の実験では、定期的な再トレーニングと、必要な場合にのみ再トレーニングをトリガーする、より高度な概念のドリフト検出方法を比較します。
2 番目の実験では、モデルの再トレーニングに使用されるデータ量を削減するためにサンプリング方法を分析します。
具体的には、最近のデータの固定サイズのウィンドウと、トレーニング データセットを小さくても多様性を保つのに役立つアプリを選択する最先端のアクティブ ラーニング手法を比較します。
私たちの実験では、コンセプト ドリフト検出とサンプル選択メカニズムが非常に効率的な再トレーニング戦略をもたらし、環境の変化において静的 Android マルウェア最先端検出器のパフォーマンスを維持するためにうまく使用できることを示しています。

要約(オリジナル)

The rapidly evolving nature of Android apps poses a significant challenge to static batch machine learning algorithms employed in malware detection systems, as they quickly become obsolete. Despite this challenge, the existing literature pays limited attention to addressing this issue, with many advanced Android malware detection approaches, such as Drebin, DroidDet and MaMaDroid, relying on static models. In this work, we show how retraining techniques are able to maintain detector capabilities over time. Particularly, we analyze the effect of two aspects in the efficiency and performance of the detectors: 1) the frequency with which the models are retrained, and 2) the data used for retraining. In the first experiment, we compare periodic retraining with a more advanced concept drift detection method that triggers retraining only when necessary. In the second experiment, we analyze sampling methods to reduce the amount of data used to retrain models. Specifically, we compare fixed sized windows of recent data and state-of-the-art active learning methods that select those apps that help keep the training dataset small but diverse. Our experiments show that concept drift detection and sample selection mechanisms result in very efficient retraining strategies which can be successfully used to maintain the performance of the static Android malware state-of-the-art detectors in changing environments.

arxiv情報

著者 Molina-Coronado B.,Mori U.,Mendiburu A.,Miguel-Alonso J
発行日 2023-09-18 14:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク