SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding

要約

大規模言語モデル (LLM) がコード生成やチャットボット支援などの実世界のアプリケーションにますます統合されるにつれて、LLM の動作を安全性を含む人間の価値観に合わせるための広範な取り組みが行われてきました。
LLM の意図しない危険な動作を誘発することを目的とした脱獄攻撃は、依然として LLM の安全性に対する重大かつ主要な脅威です。
このペーパーでは、LLM がユーザーのクエリに対して有益で無害な応答を生成するための安全性を意識したデコード戦略である SafeDecoding を導入することで、脱獄攻撃から LLM を防御することを目的としています。
SafeDecoding の開発における私たちの洞察は、有害なコンテンツを表すトークンの確率が無害な応答を表すトークンの確率を上回っているにもかかわらず、トークンを確率で降順に並べ替えた後、依然として安全免責事項が上位トークンに表示されるという観察に基づいています。
これにより、安全上の免責条項を特定し、そのトークンの確率を増幅することでジェイルブレイク攻撃を軽減できると同時に、ジェイルブレイク攻撃の目的に沿ったトークン シーケンスの確率を弱めることができます。
私たちは、6 つの最先端のジェイルブレイク攻撃と 4 つのベンチマーク データセットを使用して、5 つの LLM に対して広範な実験を実行しました。
私たちの結果は、SafeDecoding が無害なユーザー クエリに対する応答の有用性を損なうことなく、攻撃の成功率と脱獄攻撃の有害性を大幅に低減することを示しています。
SafeDecoding は 6 つの防御方法よりも優れたパフォーマンスを発揮します。

要約(オリジナル)

As large language models (LLMs) become increasingly integrated into real-world applications such as code generation and chatbot assistance, extensive efforts have been made to align LLM behavior with human values, including safety. Jailbreak attacks, aiming to provoke unintended and unsafe behaviors from LLMs, remain a significant/leading LLM safety threat. In this paper, we aim to defend LLMs against jailbreak attacks by introducing SafeDecoding, a safety-aware decoding strategy for LLMs to generate helpful and harmless responses to user queries. Our insight in developing SafeDecoding is based on the observation that, even though probabilities of tokens representing harmful contents outweigh those representing harmless responses, safety disclaimers still appear among the top tokens after sorting tokens by probability in descending order. This allows us to mitigate jailbreak attacks by identifying safety disclaimers and amplifying their token probabilities, while simultaneously attenuating the probabilities of token sequences that are aligned with the objectives of jailbreak attacks. We perform extensive experiments on five LLMs using six state-of-the-art jailbreak attacks and four benchmark datasets. Our results show that SafeDecoding significantly reduces the attack success rate and harmfulness of jailbreak attacks without compromising the helpfulness of responses to benign user queries. SafeDecoding outperforms six defense methods.

arxiv情報

著者 Zhangchen Xu,Fengqing Jiang,Luyao Niu,Jinyuan Jia,Bill Yuchen Lin,Radha Poovendran
発行日 2024-06-07 17:25:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク