Neural network fragile watermarking with no model performance degradation


ディープ ニューラル ネットワークは、データ ポイズニングやバックドア攻撃などの悪意のある微調整攻撃に対して脆弱です。
したがって、最近の研究では、ニューラル ネットワーク モデルの悪意のある微調整を検出する方法が提案されています。
したがって、モデルのパフォーマンスを低下させない新しいニューラル ネットワークの壊れやすい透かしを提案します。


Deep neural networks are vulnerable to malicious fine-tuning attacks such as data poisoning and backdoor attacks. Therefore, in recent research, it is proposed how to detect malicious fine-tuning of neural network models. However, it usually negatively affects the performance of the protected model. Thus, we propose a novel neural network fragile watermarking with no model performance degradation. In the process of watermarking, we train a generative model with the specific loss function and secret key to generate triggers that are sensitive to the fine-tuning of the target classifier. In the process of verifying, we adopt the watermarked classifier to get labels of each fragile trigger. Then, malicious fine-tuning can be detected by comparing secret keys and labels. Experiments on classic datasets and classifiers show that the proposed method can effectively detect model malicious fine-tuning with no model performance degradation.


著者 Zhaoxia Yin,Heng Yin,Xinpeng Zhang
発行日 2022-08-16 07:55:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク