Obliviate: Neutralizing Task-agnostic Backdoors within the Parameter-efficient Fine-tuning Paradigm

要約

パラメーター効率の良い微調整 (PEFT) は、大規模な言語モデルの主要なトレーニング戦略となっています。
ただし、トレーニング可能なパラメータが少ないため、タスクに依存しないバックドアなどのセキュリティ リスクが生じます。
広範囲のタスクに重大な影響を与えるにもかかわらず、PEFT のコンテキスト内でタスクに依存しないバックドアに効果的に対抗できる実用的な防御ソリューションはありません。
この研究では、PEFT に統合可能なバックドア防御である Obliviate を紹介します。
私たちは、PEFT 層内の良性ニューロンを増幅し、トリガー トークンの影響をペナルティすることを目的とした 2 つの技術を開発しました。
3 つの主要な PEFT アーキテクチャにわたる私たちの評価では、私たちの方法が最先端のタスク非依存型バックドアの攻撃成功率 (83.6%$\downarrow$) を大幅に低下させることができることが示されています。
さらに、私たちの方法は、タスク固有のバックドアと適応型攻撃の両方に対して堅牢な防御機能を示します。
ソースコードは https://github.com/obliviateARR/Obliviate から入手できます。

要約(オリジナル)

Parameter-efficient fine-tuning (PEFT) has become a key training strategy for large language models. However, its reliance on fewer trainable parameters poses security risks, such as task-agnostic backdoors. Despite their severe impact on a wide range of tasks, there is no practical defense solution available that effectively counters task-agnostic backdoors within the context of PEFT. In this study, we introduce Obliviate, a PEFT-integrable backdoor defense. We develop two techniques aimed at amplifying benign neurons within PEFT layers and penalizing the influence of trigger tokens. Our evaluations across three major PEFT architectures show that our method can significantly reduce the attack success rate of the state-of-the-art task-agnostic backdoors (83.6%$\downarrow$). Furthermore, our method exhibits robust defense capabilities against both task-specific backdoors and adaptive attacks. Source code will be obtained at https://github.com/obliviateARR/Obliviate.

arxiv情報

著者 Jaehan Kim,Minkyoo Song,Seung Ho Na,Seungwon Shin
発行日 2024-10-01 07:10:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク