Weak-To-Strong Backdoor Attacks for LLMs with Contrastive Knowledge Distillation

要約

大規模言語モデル (LLM) は、その優れた機能により広く適用されているにもかかわらず、バックドア攻撃に対して脆弱であることが証明されています。
これらの攻撃は、トレーニング サンプルの汚染とフルパラメータの微調整によって、LLM に標的を絞った脆弱性を導入します。
ただし、この種のバックドア攻撃は、特に LLM のサイズが大きくなるにつれて、大量の計算リソースを必要とするため、制限されます。
さらに、パラメーター効率の良い微調整 (PEFT) は代替手段を提供しますが、パラメーターの更新が制限されているため、トリガーとターゲット ラベルの調整が妨げられる可能性があります。
この調査では、PEFT を使用したバックドア攻撃が実現可能なパフォーマンスを達成する際に課題に直面する可能性があることを最初に検証します。
これらの問題に対処し、PEFT によるバックドア攻撃の有効性を向上させるために、対照的知識蒸留 (W2S Attack) に基づいた弱い攻撃から強力な攻撃への新しいバックドア攻撃アルゴリズムを提案します。
具体的には、教師モデルとして機能するように、フルパラメーターの微調整を通じて小規模な言語モデルをポイズニングします。
次に、教師モデルは、PEFT を使用した対照的な知識の蒸留を通じて、バックドアを大規模な生徒モデルに密かに転送します。
理論的分析により、W2Sアタックにはバックドア攻撃の有効性を増強する可能性があることが明らかになりました。
4 つの言語モデル、4 つのバックドア攻撃アルゴリズム、および教師モデルの 2 つの異なるアーキテクチャにわたる分類タスクにおける W2S Attack の優れたパフォーマンスを実証します。
実験結果では、PEFT をターゲットとしたバックドア攻撃の成功率が 100% に近いことが示されています。

要約(オリジナル)

Despite being widely applied due to their exceptional capabilities, Large Language Models (LLMs) have been proven to be vulnerable to backdoor attacks. These attacks introduce targeted vulnerabilities into LLMs by poisoning training samples and full-parameter fine-tuning. However, this kind of backdoor attack is limited since they require significant computational resources, especially as the size of LLMs increases. Besides, parameter-efficient fine-tuning (PEFT) offers an alternative but the restricted parameter updating may impede the alignment of triggers with target labels. In this study, we first verify that backdoor attacks with PEFT may encounter challenges in achieving feasible performance. To address these issues and improve the effectiveness of backdoor attacks with PEFT, we propose a novel backdoor attack algorithm from weak to strong based on contrastive knowledge distillation (W2SAttack). Specifically, we poison small-scale language models through full-parameter fine-tuning to serve as the teacher model. The teacher model then covertly transfers the backdoor to the large-scale student model through contrastive knowledge distillation, which employs PEFT. Theoretical analysis reveals that W2SAttack has the potential to augment the effectiveness of backdoor attacks. We demonstrate the superior performance of W2SAttack on classification tasks across four language models, four backdoor attack algorithms, and two different architectures of teacher models. Experimental results indicate success rates close to 100% for backdoor attacks targeting PEFT.

arxiv情報

著者 Shuai Zhao,Leilei Gan,Zhongliang Guo,Xiaobao Wu,Luwei Xiao,Xiaoyu Xu,Cong-Duy Nguyen,Luu Anh Tuan
発行日 2024-09-26 15:20:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク