要約
大規模な言語モデル(LLMS)の広範な実世界の展開により、安全基準に準拠する行動が重要になるようにします。
脱獄攻撃は、LLMSの脆弱性を活用して望ましくない行動を誘発し、LLMの安全性に大きな脅威をもたらします。
以前の防御は、多くの場合、有効性と効率の両方を同時に達成できません。
表現の観点からの防御は新しい洞察を提供しますが、既存の介入は、クエリの有害性に基づいて表現を動的に調整することはできません。
この制限に対処するために、有効性と効率の両方を確保するために、安全性の認識表現介入を通じて脱獄攻撃からLLMを保護する新しい防御方法であるSafe Intervention(SafeInt)を提案します。
SafeIntは、脱獄サンプルの表現の分析に基づいて構築されています。
介入を通じて脱獄サンプルの表現分布を調整して、脱獄様式の表現に対する不必要な摂動を最小限に抑えながら、安全でないサンプルの表現に合わせます。
6つの脱獄攻撃、2つのジェイルブレイクデータセット、2つのユーティリティベンチマークをカバーする包括的な実験を実施します。
実験結果は、SafeIntが主に有用性を維持しながら、脱獄攻撃に対してLLMを防御する際のすべてのベースラインを上回ることを示しています。
さらに、適応攻撃に対してSafeIntを評価し、リアルタイム攻撃の緩和におけるその有効性を検証します。
要約(オリジナル)
With the widespread real-world deployment of large language models (LLMs), ensuring their behavior complies with safety standards has become crucial. Jailbreak attacks exploit vulnerabilities in LLMs to induce undesirable behavior, posing a significant threat to LLM safety. Previous defenses often fail to achieve both effectiveness and efficiency simultaneously. Defenses from a representation perspective offer new insights, but existing interventions cannot dynamically adjust representations based on the harmfulness of the queries. To address this limitation while ensuring both effectiveness and efficiency, we propose SafeIntervention (SafeInt), a novel defense method that shields LLMs from jailbreak attacks through safety-aware representation intervention. SafeInt is built on our analysis of the representations of jailbreak samples. It adjusts representation distributions of jailbreak samples through intervention to align them with the representations of unsafe samples while minimizing unnecessary perturbations to jailbreak-irrelevant representations. We conduct comprehensive experiments covering six jailbreak attacks, two jailbreak datasets, and two utility benchmarks. Experimental results demonstrate that SafeInt outperforms all baselines in defending LLMs against jailbreak attacks while largely maintaining utility. Additionally, we evaluate SafeInt against adaptive attacks and verify its effectiveness in mitigating real-time attacks.
arxiv情報
著者 | Jiaqi Wu,Chen Chen,Chunyan Hou,Xiaojie Yuan |
発行日 | 2025-02-21 17:12:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google