要約
最近、言語モデルに適用するためのさまざまなパラメーター効率の良い微調整 (PEFT) 戦略が提案され、実装に成功しています。
ただし、このことは、モデルパラメータの限られたセットのみを更新する PEFT が、重量ポイズニングのバックドア攻撃に直面したときにセキュリティ上の脆弱性を構成するかどうかという疑問を引き起こします。
この研究では、事前定義されたトリガーが悪用可能であり、事前定義されたターゲットが微調整後も高い信頼性を維持するため、フルパラメータ微調整方法と比較して、PEFT がウェイト ポイズニング バックドア攻撃の影響を受けやすいことを示します。
この洞察に基づいて、当社は PEFT を活用した毒入りサンプル識別モジュール (PSIM) を開発しました。これは、信頼性によって毒入りサンプルを識別し、重量毒によるバックドア攻撃に対する堅牢な防御を提供します。
具体的には、PEFT を利用して、ランダムにリセットされたサンプル ラベルで PSIM をトレーニングします。
推論プロセス中、極度の信頼度は汚染されたサンプルの指標として機能しますが、他のサンプルはクリーンです。
私たちは、テキスト分類タスク、5 つの微調整戦略、および 3 つのウェイトポイズニング バックドア攻撃方法に関する実験を実施します。
実験では、PEFT を利用した場合、重量中毒のバックドア攻撃がほぼ 100% 成功することが示されています。
さらに、当社の防御アプローチは、体重中毒のバックドア攻撃を軽減する上で、全体的に競争力のあるパフォーマンスを示します。
要約(オリジナル)
Recently, various parameter-efficient fine-tuning (PEFT) strategies for application to language models have been proposed and successfully implemented. However, this raises the question of whether PEFT, which only updates a limited set of model parameters, constitutes security vulnerabilities when confronted with weight-poisoning backdoor attacks. In this study, we show that PEFT is more susceptible to weight-poisoning backdoor attacks compared to the full-parameter fine-tuning method, with pre-defined triggers remaining exploitable and pre-defined targets maintaining high confidence, even after fine-tuning. Motivated by this insight, we developed a Poisoned Sample Identification Module (PSIM) leveraging PEFT, which identifies poisoned samples through confidence, providing robust defense against weight-poisoning backdoor attacks. Specifically, we leverage PEFT to train the PSIM with randomly reset sample labels. During the inference process, extreme confidence serves as an indicator for poisoned samples, while others are clean. We conduct experiments on text classification tasks, five fine-tuning strategies, and three weight-poisoning backdoor attack methods. Experiments show near 100% success rates for weight-poisoning backdoor attacks when utilizing PEFT. Furthermore, our defensive approach exhibits overall competitive performance in mitigating weight-poisoning backdoor attacks.
arxiv情報
著者 | Shuai Zhao,Leilei Gan,Luu Anh Tuan,Jie Fu,Lingjuan Lyu,Meihuizi Jia,Jinming Wen |
発行日 | 2024-03-29 12:12:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google