PBP: Post-training Backdoor Purification for Malware Classifiers

要約

近年、サイバーセキュリティにおける機械学習 (ML) の台頭により、ML マルウェア分類器に対するバックドア ポイズニング攻撃の脅威の増大など、新たな課題が生じています。
たとえば、攻撃者は悪意のあるサンプルをパブリック マルウェア リポジトリに注入し、トレーニング データを汚染し、ML モデルによってマルウェアを誤分類する可能性があります。
現在の対策は主に、トレーニング データ ポイントに関するさまざまなアンサンブル モデルの出力内の不一致を利用して、汚染されたサンプルを検出することに焦点を当てています。
ただし、これらの方法は、Machine Learning-as-a-Service (MLaaS) が使用されるシナリオ、またはユーザーがトレーニング後にモデルからバックドアを削除することを目的とするシナリオには適していません。
このシナリオに対処するために、特定のバックドア埋め込みメカニズムを想定せずにさまざまなタイプのバックドア埋め込みを軽減する、マルウェア分類子のトレーニング後の防御である PBP を導入します。
私たちの方法は、トリガー埋め込み方法とは独立して、ニューラルネットワークの活性化分布に対するバックドア攻撃の影響を利用します。
バックドア攻撃が存在すると、各層のアクティベーション分布が歪んで混合分布になります。
バッチ正規化層の統計を調整することで、バックドア モデルがクリーンなモデルと同様に動作するように導くことができます。
2 つのデータセット、2 種類のバックドア手法、およびさまざまな攻撃構成での実験で証明されているように、私たちの手法は、いくつかの最先端の手法に比べて大きな利点があることを示しています。
特に、私たちのアプローチでは、バックドアを浄化し、攻撃の成功率を 100\% からほぼ 0\% に下げるのに、トレーニング データのほんの一部 (わずか 1\%) しか必要としません。これは、ベースライン手法と比較して 100 倍の改善です。

私たちのコードは \url{https://github.com/judydnguyen/pbp-backdoor-purification-official} で入手できます。

要約(オリジナル)

In recent years, the rise of machine learning (ML) in cybersecurity has brought new challenges, including the increasing threat of backdoor poisoning attacks on ML malware classifiers. For instance, adversaries could inject malicious samples into public malware repositories, contaminating the training data and potentially misclassifying malware by the ML model. Current countermeasures predominantly focus on detecting poisoned samples by leveraging disagreements within the outputs of a diverse set of ensemble models on training data points. However, these methods are not suitable for scenarios where Machine Learning-as-a-Service (MLaaS) is used or when users aim to remove backdoors from a model after it has been trained. Addressing this scenario, we introduce PBP, a post-training defense for malware classifiers that mitigates various types of backdoor embeddings without assuming any specific backdoor embedding mechanism. Our method exploits the influence of backdoor attacks on the activation distribution of neural networks, independent of the trigger-embedding method. In the presence of a backdoor attack, the activation distribution of each layer is distorted into a mixture of distributions. By regulating the statistics of the batch normalization layers, we can guide a backdoored model to perform similarly to a clean one. Our method demonstrates substantial advantages over several state-of-the-art methods, as evidenced by experiments on two datasets, two types of backdoor methods, and various attack configurations. Notably, our approach requires only a small portion of the training data — only 1\% — to purify the backdoor and reduce the attack success rate from 100\% to almost 0\%, a 100-fold improvement over the baseline methods. Our code is available at \url{https://github.com/judydnguyen/pbp-backdoor-purification-official}.

arxiv情報

著者 Dung Thuy Nguyen,Ngoc N. Tran,Taylor T. Johnson,Kevin Leach
発行日 2024-12-05 15:03:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク