要約
コンピューター セキュリティ、特にマルウェア分類における機械学習 (ML) への依存度が高まっており、大幅な進歩が推進されています。
ただし、これらの結果の複製可能性と再現性はしばしば見落とされ、研究結果を検証する際の課題につながります。
このペーパーでは、データセットと方法論の問題に焦点を当て、Android マルウェア検出における ML 研究の有効性を損なう重大な落とし穴に焦点を当てています。
2 つのデータセットを使用して Android マルウェア検出を包括的に分析し、広く使用されている 6 つの ML モデルを使用してオフラインおよび継続的な学習設定を評価します。
私たちの調査では、適切に調整すれば、より単純なベースライン手法がより複雑なモデルよりも優れたパフォーマンスを発揮できることが多いことが明らかになりました。
再現性の課題に対処するために、データセットと方法論の実践を改善し、より公平なモデル比較を可能にするソリューションを提案します。
さらに、マルウェア分析を容易にするためにコードをオープンソース化し、新しいモデルやデータセットに拡張できるようにしています。
私たちの論文は、Android マルウェア検出およびその他のセキュリティ領域における将来の研究をサポートし、公開された結果の信頼性と再現性を高めることを目的としています。
要約(オリジナル)
The increasing reliance on machine learning (ML) in computer security, particularly for malware classification, has driven significant advancements. However, the replicability and reproducibility of these results are often overlooked, leading to challenges in verifying research findings. This paper highlights critical pitfalls that undermine the validity of ML research in Android malware detection, focusing on dataset and methodological issues. We comprehensively analyze Android malware detection using two datasets and assess offline and continual learning settings with six widely used ML models. Our study reveals that when properly tuned, simpler baseline methods can often outperform more complex models. To address reproducibility challenges, we propose solutions for improving datasets and methodological practices, enabling fairer model comparisons. Additionally, we open-source our code to facilitate malware analysis, making it extensible for new models and datasets. Our paper aims to support future research in Android malware detection and other security domains, enhancing the reliability and reproducibility of published results.
arxiv情報
著者 | Md Tanvirul Alam,Dipkamal Bhusal,Nidhi Rastogi |
発行日 | 2024-09-11 16:37:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google