要約
大規模な言語モデル(LLMS)でのジェイルブレイクは、LLMを欺いて有害なテキストを生成できるため、主要なセキュリティ上の懸念事項です。
しかし、刑務所がどのように機能するかについての理解はまだ不十分であるため、効果的な防衛戦略の開発が困難です。
この問題により多くの光を当てることを目指しています。7つの異なる脱獄方法の詳細な大規模な分析を実施し、これらの意見の不十分な観測サンプルに由来することがわかります。
特に、\ textit {安全境界}を導入します。脱獄は、LLMが有害な情報に敏感ではない安全境界の外に有害なアクティベーションをシフトすることがわかります。
また、このようなシフトでは低層と中間層が重要である一方で、より深い層は影響が少ないことがわかります。
これらの洞察を活用して、\ textBf {activation boundary Defense}(ABD)と呼ばれる新しい防御を提案します。これは、安全境界内のアクティベーションを適応的に制約します。
さらに、ベイジアンの最適化を使用して、防御方法を低層と中層に選択的に適用します。
いくつかのベンチマークでの実験は、ABDがさまざまな形態の脱獄攻撃に対して98%を超える平均DSRを達成し、モデルの一般的な能力に2 \%未満の影響を与えていることを示しています。
要約(オリジナル)
Jailbreaking in Large Language Models (LLMs) is a major security concern as it can deceive LLMs to generate harmful text. Yet, there is still insufficient understanding of how jailbreaking works, which makes it hard to develop effective defense strategies. We aim to shed more light into this issue: we conduct a detailed large-scale analysis of seven different jailbreak methods and find that these disagreements stem from insufficient observation samples. In particular, we introduce \textit{safety boundary}, and we find that jailbreaks shift harmful activations outside that safety boundary, where LLMs are less sensitive to harmful information. We also find that the low and the middle layers are critical in such shifts, while deeper layers have less impact. Leveraging on these insights, we propose a novel defense called \textbf{Activation Boundary Defense} (ABD), which adaptively constrains the activations within the safety boundary. We further use Bayesian optimization to selectively apply the defense method to the low and the middle layers. Our experiments on several benchmarks show that ABD achieves an average DSR of over 98\% against various forms of jailbreak attacks, with less than 2\% impact on the model’s general capabilities.
arxiv情報
著者 | Lang Gao,Jiahui Geng,Xiangliang Zhang,Preslav Nakov,Xiuying Chen |
発行日 | 2025-05-21 16:47:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google