PETA: Parameter-Efficient Trojan Attacks

要約

パラメーター効率の良い微調整 (PEFT) により、事前トレーニングされた言語モデル (PLM) を特定のタスクに効率的に適応させることができます。
最小限の (追加の) パラメーターのセットのみを調整することで、PEFT は標準の微調整に匹敵するパフォーマンスを実現します。
ただし、広く使用されているにもかかわらず、PEFT のセキュリティへの影響はほとんど解明されていません。
このペーパーでは、最初のステップを踏み、バイレベル最適化を通じて下流の適応を考慮することで PLM の重みを侵害する新しいトロイの木馬攻撃である PETA を紹介します。上位レベルの目的はバックドアをモデルに埋め込み、下位レベルの目的はバックドアをシミュレートします。
PEFT は、PLM のタスク固有のパフォーマンスを維持し、微調整後もバックドアが持続することを保証します。
さまざまなダウンストリーム タスクとトリガー設計にわたる広範な評価により、攻撃者が被害者ユーザーのトレーニング プロセスについて完全な知識を持っていない場合でも、攻撃の成功率と正確な精度の両方の点で PETA の有効性を実証します。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) enables efficient adaptation of pre-trained language models (PLMs) to specific tasks. By tuning only a minimal set of (extra) parameters, PEFT achieves performance that is comparable to standard fine-tuning. However, despite its prevalent use, the security implications of PEFT remain largely unexplored. In this paper, we take the initial steps and present PETA, a novel trojan attack that compromises the weights of PLMs by accounting for downstream adaptation through bilevel optimization: the upper-level objective embeds the backdoor into a model while the lower-level objective simulates PEFT to both retain the PLM’s task-specific performance and ensure that the backdoor persists after fine-tuning. With extensive evaluation across a variety of downstream tasks and trigger designs, we demonstrate PETA’s effectiveness in terms of both attack success rate and clean accuracy, even when the attacker does not have full knowledge of the victim user’s training process.

arxiv情報

著者 Lauren Hong,Ting Wang
発行日 2024-03-05 17:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク