AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation

要約

この論文では、特に最適化ベースの貪欲座標勾配 (GCG) 戦略に焦点を当てて、脱獄攻撃に対するトランスフォーマーベースの大規模言語モデル (LLM) の脆弱性を研究します。
まず、攻撃の有効性とモデルの内部動作との間に正の相関関係があることが観察されました。
たとえば、LLM の安全性の調整を確保するために設計されたシステム プロンプトにモデルがより注意を払うと、攻撃の効果が低下する傾向があります。
この発見に基づいて、モデルの注意スコアを操作して LLM ジェイルブレイクを容易にする強化された方法を導入します。これを AttnGCG と呼びます。
経験的には、AttnGCG はさまざまな LLM にわたって攻撃効率の一貫した向上を示しており、Llama-2 シリーズでは平均約 7%、Gemma シリーズでは約 10% の増加を達成しています。
私たちの戦略は、目に見えない有害な目標と、GPT-3.5 や GPT-4 のようなブラックボックス LLM の両方に対する堅牢な攻撃伝達性も示しています。
さらに、注意スコアの視覚化はより解釈しやすく、ターゲットを絞った注意操作がより効果的な脱獄をどのように促進するかについてより良い洞察を得ることができることに注目します。
コードは https://github.com/UCSC-VLAA/AttnGCG-攻撃 でリリースされます。

要約(オリジナル)

This paper studies the vulnerabilities of transformer-based Large Language Models (LLMs) to jailbreaking attacks, focusing specifically on the optimization-based Greedy Coordinate Gradient (GCG) strategy. We first observe a positive correlation between the effectiveness of attacks and the internal behaviors of the models. For instance, attacks tend to be less effective when models pay more attention to system prompts designed to ensure LLM safety alignment. Building on this discovery, we introduce an enhanced method that manipulates models’ attention scores to facilitate LLM jailbreaking, which we term AttnGCG. Empirically, AttnGCG shows consistent improvements in attack efficacy across diverse LLMs, achieving an average increase of ~7% in the Llama-2 series and ~10% in the Gemma series. Our strategy also demonstrates robust attack transferability against both unseen harmful goals and black-box LLMs like GPT-3.5 and GPT-4. Moreover, we note our attention-score visualization is more interpretable, allowing us to gain better insights into how our targeted attention manipulation facilitates more effective jailbreaking. We release the code at https://github.com/UCSC-VLAA/AttnGCG-attack.

arxiv情報

著者 Zijun Wang,Haoqin Tu,Jieru Mei,Bingchen Zhao,Yisen Wang,Cihang Xie
発行日 2024-10-11 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク