要約
ディープ ニューラル ネットワークは、データ ポイズニングやバックドア攻撃などの悪意のある微調整攻撃に対して脆弱です。
したがって、最近の研究では、ニューラル ネットワーク モデルの悪意のある微調整を検出する方法が提案されています。
ただし、通常は保護モデルのパフォーマンスに悪影響を及ぼします。
したがって、モデルのパフォーマンスを低下させない新しいニューラル ネットワークの壊れやすい透かしを提案します。
透かしのプロセスでは、特定の損失関数と秘密鍵を使用して生成モデルをトレーニングし、ターゲット分類器の微調整に敏感なトリガーを生成します。
検証の過程で、透かし入りの分類子を採用して、各脆弱なトリガーのラベルを取得します。
次に、秘密鍵とラベルを比較することで、悪意のある微調整を検出できます。
古典的なデータセットと分類子に関する実験は、提案された方法が、モデルのパフォーマンスを低下させることなく、モデルの悪意のある微調整を効果的に検出できることを示しています。
要約(オリジナル)
Deep neural networks are vulnerable to malicious fine-tuning attacks such as data poisoning and backdoor attacks. Therefore, in recent research, it is proposed how to detect malicious fine-tuning of neural network models. However, it usually negatively affects the performance of the protected model. Thus, we propose a novel neural network fragile watermarking with no model performance degradation. In the process of watermarking, we train a generative model with the specific loss function and secret key to generate triggers that are sensitive to the fine-tuning of the target classifier. In the process of verifying, we adopt the watermarked classifier to get labels of each fragile trigger. Then, malicious fine-tuning can be detected by comparing secret keys and labels. Experiments on classic datasets and classifiers show that the proposed method can effectively detect model malicious fine-tuning with no model performance degradation.
arxiv情報
著者 | Zhaoxia Yin,Heng Yin,Xinpeng Zhang |
発行日 | 2022-08-16 07:55:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google