要約
大規模な言語モデル(LLM)の広範な採用により、脱獄攻撃はますます差し迫った安全性の懸念になりました。
安全に整合したLLMは、通常の有害なクエリに対して効果的に防御できますが、そのような攻撃に対して脆弱なままです。
既存の防御方法は、主に微調整または入力の変更に依存しています。これは、一般化が限られていることと有用性の低下に苦しむことがよくあります。
これに対処するために、ターゲットを絞った注意修正を介してLLMSの脱獄攻撃に対する防御能力を改善する微妙な防御アプローチであるDETAMを紹介します。
具体的には、成功した防御と失敗した防御の間の注意スコアの違いを分析して、脱獄攻撃に敏感な注意ヘッドを特定します。
推論中、私たちは注意を再現して、ユーザーの核となる意図を強調し、攻撃トークンからの干渉を最小限に抑えます。
私たちの実験結果は、DETAMが脱獄防衛のさまざまなベースラインを上回り、さまざまな攻撃やモデルにわたって堅牢な一般化を示すことを示しています。
さらに、モデルのユーティリティを評価する際に、過剰な防御データセットを組み込み、アプローチの優れたパフォーマンスをさらに検証します。
コードは、受け入れられるとすぐにリリースされます。
要約(オリジナル)
With the widespread adoption of Large Language Models (LLMs), jailbreak attacks have become an increasingly pressing safety concern. While safety-aligned LLMs can effectively defend against normal harmful queries, they remain vulnerable to such attacks. Existing defense methods primarily rely on fine-tuning or input modification, which often suffer from limited generalization and reduced utility. To address this, we introduce DETAM, a finetuning-free defense approach that improves the defensive capabilities against jailbreak attacks of LLMs via targeted attention modification. Specifically, we analyze the differences in attention scores between successful and unsuccessful defenses to identify the attention heads sensitive to jailbreak attacks. During inference, we reallocate attention to emphasize the user’s core intention, minimizing interference from attack tokens. Our experimental results demonstrate that DETAM outperforms various baselines in jailbreak defense and exhibits robust generalization across different attacks and models, maintaining its effectiveness even on in-the-wild jailbreak data. Furthermore, in evaluating the model’s utility, we incorporated over-defense datasets, which further validate the superior performance of our approach. The code will be released immediately upon acceptance.
arxiv情報
著者 | Yu Li,Han Jiang,Zhihua Wei |
発行日 | 2025-04-18 09:02:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google