Unified Neural Backdoor Removal with Only Few Clean Samples through Unlearning and Relearning

要約

ディープ ニューラル ネットワーク モデルをセキュリティ クリティカルなさまざまなアプリケーションに適用すると、セキュリティ上の重大な懸念、特にバックドア攻撃のリスクが生じています。
ニューラル バックドアは、攻撃者がモデルの動作を悪意を持って変更できるため、重大なセキュリティ上の脅威をもたらします。
多くの防御策が検討されていますが、既存のアプローチでは、モデル固有の制約によって制限されたり、トレーニング プロセスに複雑な変更が必要になったり、多様なバックドア攻撃に対して不十分であることがよくあります。
この研究では、ULRL (バックドア除去の UnLearn と ReLearn の略) と呼ばれる、バックドアを包括的かつ効果的に除去するための新しい方法を紹介します。
ULRL はクリーンなサンプルの少数のセットのみを必要とし、あらゆる種類のバックドアに対して効果的に機能します。
まず、疑わしいニューロンを特定するためにアンラーニングを適用し、次にバックドアを軽減するためにターゲットを絞ったニューラル重み調整を適用します(つまり、疑わしいニューロンの重大な重み偏差を促進することによって)。
12 種類の異なるバックドアに対して評価したところ、ULRL はモデルの実用性を維持しながらバックドアを排除する点で最先端の手法を大幅に上回っていることが示されています。

要約(オリジナル)

The application of deep neural network models in various security-critical applications has raised significant security concerns, particularly the risk of backdoor attacks. Neural backdoors pose a serious security threat as they allow attackers to maliciously alter model behavior. While many defenses have been explored, existing approaches are often bounded by model-specific constraints, or necessitate complex alterations to the training process, or fall short against diverse backdoor attacks. In this work, we introduce a novel method for comprehensive and effective elimination of backdoors, called ULRL (short for UnLearn and ReLearn for backdoor removal). ULRL requires only a small set of clean samples and works effectively against all kinds of backdoors. It first applies unlearning for identifying suspicious neurons and then targeted neural weight tuning for backdoor mitigation (i.e., by promoting significant weight deviation on the suspicious neurons). Evaluated against 12 different types of backdoors, ULRL is shown to significantly outperform state-of-the-art methods in eliminating backdoors whilst preserving the model utility.

arxiv情報

著者 Nay Myat Min,Long H. Pham,Jun Sun
発行日 2024-05-23 16:49:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク