要約
大規模言語モデル (LLM) は、慎重に作成された入力を要求された場合に有害なコンテンツを生成する可能性があり、これは LLM ジェイルブレイクとして知られる脆弱性です。
LLM がより強力になるにつれて、セキュリティを強化し、モデルを人間の価値観に合わせるために脱獄方法を研究することが重要になります。
従来、ジェイルブレイク手法はサフィックスの追加やプロンプト テンプレートに依存していましたが、これらの手法では攻撃の多様性が限られているという問題がありました。
このペーパーでは、拡散モデルにヒントを得たジェイルブレイク書き換えのためのエンドツーエンドの生成的アプローチである Diffusion Attacker を紹介します。
私たちの方法では、シーケンスツーシーケンス (seq2seq) テキスト拡散モデルをジェネレーターとして採用し、元のプロンプトに基づいて条件付けし、新しい攻撃損失でノイズ除去プロセスをガイドします。
自動回帰 LLM を使用して脱獄プロンプトを生成する以前のアプローチでは、すでに生成されたトークンの変更が制限され、書き換えスペースが制限されていましたが、Difffusion Attacker は seq2seq 拡散モデルを利用し、より柔軟なトークン変更を可能にします。
このアプローチでは、元のプロンプトのセマンティック コンテンツは保存されますが、有害なコンテンツが生成されます。
さらに、Gumbel-Softmax 手法を活用して、拡散モデルの出力分布からのサンプリング プロセスを微分可能にし、反復的なトークン検索の必要性を排除します。
Advbench と Harmbench での広範な実験により、Difffusion Attacker が、攻撃成功率 (ASR)、流暢性、多様性などのさまざまな評価指標にわたって以前の方法よりも優れていることが実証されました。
要約(オリジナル)
Large Language Models (LLMs) are susceptible to generating harmful content when prompted with carefully crafted inputs, a vulnerability known as LLM jailbreaking. As LLMs become more powerful, studying jailbreak methods is critical to enhancing security and aligning models with human values. Traditionally, jailbreak techniques have relied on suffix addition or prompt templates, but these methods suffer from limited attack diversity. This paper introduces DiffusionAttacker, an end-to-end generative approach for jailbreak rewriting inspired by diffusion models. Our method employs a sequence-to-sequence (seq2seq) text diffusion model as a generator, conditioning on the original prompt and guiding the denoising process with a novel attack loss. Unlike previous approaches that use autoregressive LLMs to generate jailbreak prompts, which limit the modification of already generated tokens and restrict the rewriting space, DiffusionAttacker utilizes a seq2seq diffusion model, allowing more flexible token modifications. This approach preserves the semantic content of the original prompt while producing harmful content. Additionally, we leverage the Gumbel-Softmax technique to make the sampling process from the diffusion model’s output distribution differentiable, eliminating the need for iterative token search. Extensive experiments on Advbench and Harmbench demonstrate that DiffusionAttacker outperforms previous methods across various evaluation metrics, including attack success rate (ASR), fluency, and diversity.
arxiv情報
著者 | Hao Wang,Hao Li,Junda Zhu,Xinyuan Wang,Chengwei Pan,MinLie Huang,Lei Sha |
発行日 | 2024-12-23 12:44:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google