要約
パラメーター効率の良い微調整 (PEFT) により、事前トレーニングされた言語モデル (PLM) を特定のタスクに効率的に適応させることができます。
PEFT は、(追加の) パラメータの最小限のセットのみを調整することで、完全な微調整に匹敵するパフォーマンスを実現します。
ただし、広く使用されているにもかかわらず、PEFT のセキュリティへの影響はほとんど解明されていません。
このペーパーでは、PEFT がトロイの木馬攻撃に対して特有の脆弱性を示すことを明らかにするパイロット調査を実施します。
具体的には、バイレベル最適化を通じて下流の適応を説明する新しい攻撃である PETA を紹介します。上位レベルの目標は PLM にバックドアを埋め込み、下位レベルの目標は PEFT をシミュレートして PLM のタスク固有のパフォーマンスを維持します。
さまざまなダウンストリーム タスクとトリガー設計にわたる広範な評価により、被害者ユーザーが汚染されていないデータを使用してバックドア PLM 上で PEFT を実行した後でも、攻撃の成功率と影響を受けないクリーンな精度の両方の点で PETA の有効性を実証しました。
さらに、PETA の有効性について考えられる説明を経験的に提供します。バイレベル最適化は本質的にバックドア モジュールと PEFT モジュールを「直交化」し、それによって PEFT 全体でバックドアを保持します。
この洞察に基づいて、バックドア PLM の選択されたレイヤーで PEFT を省略し、これらのレイヤーのパラメーターのサブセットを凍結解除する単純な防御策を検討します。これにより、PETA を効果的に無力化することが示されています。
要約(オリジナル)
Parameter-efficient fine-tuning (PEFT) enables efficient adaptation of pre-trained language models (PLMs) to specific tasks. By tuning only a minimal set of (extra) parameters, PEFT achieves performance comparable to full fine-tuning. However, despite its prevalent use, the security implications of PEFT remain largely unexplored. In this paper, we conduct a pilot study revealing that PEFT exhibits unique vulnerability to trojan attacks. Specifically, we present PETA, a novel attack that accounts for downstream adaptation through bilevel optimization: the upper-level objective embeds the backdoor into a PLM while the lower-level objective simulates PEFT to retain the PLM’s task-specific performance. With extensive evaluation across a variety of downstream tasks and trigger designs, we demonstrate PETA’s effectiveness in terms of both attack success rate and unaffected clean accuracy, even after the victim user performs PEFT over the backdoored PLM using untainted data. Moreover, we empirically provide possible explanations for PETA’s efficacy: the bilevel optimization inherently ‘orthogonalizes’ the backdoor and PEFT modules, thereby retaining the backdoor throughout PEFT. Based on this insight, we explore a simple defense that omits PEFT in selected layers of the backdoored PLM and unfreezes a subset of these layers’ parameters, which is shown to effectively neutralize PETA.
arxiv情報
著者 | Lauren Hong,Ting Wang |
発行日 | 2023-10-04 13:21:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google