要約
学習ベースのAndroidマルウェア検出器は、マルウェアのバリエーションと新しいファミリによって引き起こされる自然な分布ドリフトのために、時間の経過とともに分解します。
このペーパーでは、経験的リスク最小化(ERM)がそのような分布シフトに対して直面して訓練された課題を体系的に調査し、それらの欠点を安定した識別機能を学習できないことに起因します。
不変学習理論は、モデルがトレーニングセットの不安定性を明らかにする安定した表現を越える環境を生成するよう奨励することにより、有望なソリューションを提供します。
ただし、以前の環境ラベルの欠如、ドリフト要因の多様性、多様な家族によって引き起こされる低品質の表現により、このタスクは困難になります。
これらの問題に対処するために、マルウェア検出のための最初の時間的不変トレーニングフレームワークであるTIFを提案します。これは、時間をかけて安定した表現を学習する検出器の能力を高めることを目的としています。
TIFは、アプリケーションの観測日に基づいて環境を整理して、時間的ドリフトを明らかにし、特殊なマルチプロキシの対照学習と不変勾配アライメントを統合して、高品質で安定した表現と環境を生成および整列させます。
TIFは、学習ベースの検出器にシームレスに統合できます。
10年にわたるデータセットでの実験は、TIFが、特に早期展開段階で優れており、実際のニーズに対処し、最先端の方法を上回ることを示しています。
要約(オリジナル)
Learning-based Android malware detectors degrade over time due to natural distribution drift caused by malware variants and new families. This paper systematically investigates the challenges classifiers trained with empirical risk minimization (ERM) face against such distribution shifts and attributes their shortcomings to their inability to learn stable discriminative features. Invariant learning theory offers a promising solution by encouraging models to generate stable representations crossing environments that expose the instability of the training set. However, the lack of prior environment labels, the diversity of drift factors, and low-quality representations caused by diverse families make this task challenging. To address these issues, we propose TIF, the first temporal invariant training framework for malware detection, which aims to enhance the ability of detectors to learn stable representations across time. TIF organizes environments based on application observation dates to reveal temporal drift, integrating specialized multi-proxy contrastive learning and invariant gradient alignment to generate and align environments with high-quality, stable representations. TIF can be seamlessly integrated into any learning-based detector. Experiments on a decade-long dataset show that TIF excels, particularly in early deployment stages, addressing real-world needs and outperforming state-of-the-art methods.
arxiv情報
著者 | Xinran Zheng,Shuo Yang,Edith C. H. Ngai,Suman Jana,Lorenzo Cavallaro |
発行日 | 2025-02-07 17:17:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google