AdvPrefix: An Objective for Nuanced LLM Jailbreaks

要約

大規模言語モデル (LLM) に対するジェイルブレイク攻撃の多くは、モデルに「もちろん、これは (有害なリクエスト)」というプレフィックスを付けて応答させるという共通の目的に依存しています。
この目的は簡単ではありますが、2 つの制限があります。1 つはモデルの動作に対する制御が限られていて、多くの場合不完全または非現実的な応答が生じること、もう 1 つは最適化を妨げる厳格な形式であることです。
これらの制限に対処するために、最適化を容易にしながら、モデルの動作をより微妙に制御できるようにする新しいプレフィックス強制目標である AdvPrefix を導入します。
私たちの目標は、高いプレフィル攻撃成功率と低い負の対数尤度という 2 つの基準に基づいて自動的に選択される、モデル依存のプレフィックスを活用します。
単一のユーザー要求に複数のプレフィックスを使用することで、最適化をさらに簡素化できます。
AdvPrefix は既存の脱獄攻撃にシームレスに統合して、無料でパフォーマンスを向上させることができます。
たとえば、GCG 攻撃のターゲット プレフィックスを Llama-3 のプレフィックスに置き換えるだけで、微妙な攻撃の成功率が 14% から 80% に向上します。これは、現在の調整では目に見えないプレフィックスを一般化するのに苦労していることを示唆しています。
私たちの研究は、微妙な脱獄を達成する上で脱獄の目標が重要であることを示しています。

要約(オリジナル)

Many jailbreak attacks on large language models (LLMs) rely on a common objective: making the model respond with the prefix ‘Sure, here is (harmful request)’. While straightforward, this objective has two limitations: limited control over model behaviors, often resulting in incomplete or unrealistic responses, and a rigid format that hinders optimization. To address these limitations, we introduce AdvPrefix, a new prefix-forcing objective that enables more nuanced control over model behavior while being easy to optimize. Our objective leverages model-dependent prefixes, automatically selected based on two criteria: high prefilling attack success rates and low negative log-likelihood. It can further simplify optimization by using multiple prefixes for a single user request. AdvPrefix can integrate seamlessly into existing jailbreak attacks to improve their performance for free. For example, simply replacing GCG attack’s target prefixes with ours on Llama-3 improves nuanced attack success rates from 14% to 80%, suggesting that current alignment struggles to generalize to unseen prefixes. Our work demonstrates the importance of jailbreak objectives in achieving nuanced jailbreaks.

arxiv情報

著者 Sicheng Zhu,Brandon Amos,Yuandong Tian,Chuan Guo,Ivan Evtimov
発行日 2024-12-13 18:00:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク