Fluent Student-Teacher Redteaming

要約

公開されている言語モデルの多くは、有害なテキストや責任を引き起こすテキストの可能性を減らすために安全に調整されています。
ユーザーまたはセキュリティ アナリストは、要求への準拠を引き起こす敵対的なプロンプトを使用して、これらのモデルをジェイルブレイクまたはレッドチーム化しようとします。
攻撃方法の 1 つは、プロンプトに個別の最適化手法を適用することです。
ただし、結果として得られる攻撃文字列は意味不明のテキストであることが多く、測定された複雑さが高いため防御側によって簡単にフィルタリングされ、目に見えないタスクや適切に調整されたモデルでは失敗する可能性があります。
この作業では、既存のアルゴリズム (主に GCG と BEAST) を改善して、Llama-2 や Phi-3 などの安全性が調整されたモデルに対する強力かつ流暢な攻撃を開発します。
私たちの技術は、出力確率または内部活性化の観点から、被害者モデルが有害な微調整をエミュレートすることを促す、新しい蒸留ベースのアプローチを中心としています。
人間の流暢な攻撃を促進するために、マルチモデルの混乱ペナルティと反復ペナルティを目標に追加します。
また、トークンの挿入、トークンの交換、トークンの削除を許可し、より長い攻撃シーケンスを使用することにより、オプティマイザーの強度も強化されています。
結果として得られるプロセスは、人間が書いたプロンプトに似たプロンプトを使用して、最も困難なターゲット モデルを確実にジェイルブレイクすることができます。
Advbench では、モデルで測定された混乱度 $<33$ を維持しながら、Llama-2-7B、Llama-3-8B、Vicuna-7B に対して攻撃成功率 $>93$% を達成しました。
Phi-3 では $95$% の攻撃成功を達成しましたが、複雑さは高くなります。
また、Llama-2-7B、Phi-3-mini、Vicuna-7B にわたるこれまで見られなかったタスクで $>88$% のコンプライアンスを誘導し、他のブラックボックス モデルに移行する、普遍的に最適化された単一の流暢なプロンプトも見つかりました。

要約(オリジナル)

Many publicly available language models have been safety tuned to reduce the likelihood of toxic or liability-inducing text. Users or security analysts attempt to jailbreak or redteam these models with adversarial prompts which cause compliance with requests. One attack method is to apply discrete optimization techniques to the prompt. However, the resulting attack strings are often gibberish text, easily filtered by defenders due to high measured perplexity, and may fail for unseen tasks and/or well-tuned models. In this work, we improve existing algorithms (primarily GCG and BEAST) to develop powerful and fluent attacks on safety-tuned models like Llama-2 and Phi-3. Our technique centers around a new distillation-based approach that encourages the victim model to emulate a toxified finetune, either in terms of output probabilities or internal activations. To encourage human-fluent attacks, we add a multi-model perplexity penalty and a repetition penalty to the objective. We also enhance optimizer strength by allowing token insertions, token swaps, and token deletions and by using longer attack sequences. The resulting process is able to reliably jailbreak the most difficult target models with prompts that appear similar to human-written prompts. On Advbench we achieve attack success rates $>93$% for Llama-2-7B, Llama-3-8B, and Vicuna-7B, while maintaining model-measured perplexity $<33$; we achieve $95$% attack success for Phi-3, though with higher perplexity. We also find a universally-optimized single fluent prompt that induces $>88$% compliance on previously unseen tasks across Llama-2-7B, Phi-3-mini and Vicuna-7B and transfers to other black-box models.

arxiv情報

著者 T. Ben Thompson,Michael Sklar
発行日 2024-07-24 17:23:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク