Backdoor Activation Attack: Attack Large Language Models using Activation Steering for Safety-Alignment

要約

AI の安全性を確保するために、命令調整されたラージ言語モデル (LLM) は、人間の意図に従ってモデルを動作させることを意味する調整を確実にするように特別にトレーニングされています。
これらのモデルはさまざまな安全ベンチマークで賞賛に値する結果を示していますが、その安全調整の脆弱性については十分に研究されていません。
LLM が引き起こす可能性のある潜在的な害を考えると、これは特に問題です。
LLM に対する既存の攻撃手法は、多くの場合、汚染されたトレーニング データや悪意のあるプロンプトの挿入に依存しています。
これらのアプローチは攻撃のステルス性と汎用性を損なうため、攻撃が検出されやすくなります。
さらに、これらのモデルは実装に多くの計算リソースを必要とすることが多く、現実世界のアプリケーションではあまり実用的ではありません。
最適化を必要とせずにベクトルをステアリングすることでモデルの動作を変更し、レッドチーム化 LLM でのその有効性を活用した最近の成功に触発され、私たちは LLM の 4 つの重要な側面 (真実性、毒性、バイアス、有害性) をターゲットとするアクティベーション ステアリングを採用した実験を実施しました。
– さまざまな攻撃設定にわたって。
手動分析に頼ることなく、多様なターゲットの配置に適用できる普遍的な攻撃戦略を確立するために、コントラスト層の検索に基づいて介入層を自動的に選択します。
私たちの実験結果は、アクティベーション攻撃が非常に効果的であり、攻撃効率にほとんどまたはまったくオーバーヘッドを加えないことを示しています。
さらに、このようなアクティベーション攻撃に対する潜在的な対抗策についても説明します。
私たちのコードとデータは https://github.com/wang2226/Backdoor-Activation- Attack から入手できます。 警告: この文書には攻撃的または気分を害する可能性のあるコンテンツが含まれています。

要約(オリジナル)

To ensure AI safety, instruction-tuned Large Language Models (LLMs) are specifically trained to ensure alignment, which refers to making models behave in accordance with human intentions. While these models have demonstrated commendable results on various safety benchmarks, the vulnerability of their safety alignment has not been extensively studied. This is particularly troubling given the potential harm that LLMs can inflict. Existing attack methods on LLMs often rely on poisoned training data or the injection of malicious prompts. These approaches compromise the stealthiness and generalizability of the attacks, making them susceptible to detection. Additionally, these models often demand substantial computational resources for implementation, making them less practical for real-world applications. Inspired by recent success in modifying model behavior through steering vectors without the need for optimization, and drawing on its effectiveness in red-teaming LLMs, we conducted experiments employing activation steering to target four key aspects of LLMs: truthfulness, toxicity, bias, and harmfulness – across a varied set of attack settings. To establish a universal attack strategy applicable to diverse target alignments without depending on manual analysis, we automatically select the intervention layer based on contrastive layer search. Our experiment results show that activation attacks are highly effective and add little or no overhead to attack efficiency. Additionally, we discuss potential countermeasures against such activation attacks. Our code and data are available at https://github.com/wang2226/Backdoor-Activation-Attack Warning: this paper contains content that can be offensive or upsetting.

arxiv情報

著者 Haoran Wang,Kai Shu
発行日 2023-11-24 16:22:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク