要約
安全性が重要なアプリケーションに大規模言語モデル (LLM) が導入されることが増えているため、潜在的なジェイルブレイク (LLM の安全メカニズムを無効にする可能性のある悪意のあるプロンプト) に対するその脆弱性が研究の注目を集めています。
LLM をジェイルブレイクから保護するための調整方法が提案されていますが、多くの研究者は、調整された LLM が注意深く作成された悪意のあるプロンプトによってジェイルブレイクされ、ポリシー規制に違反するコンテンツを生成する可能性があることを発見しました。
LLM に対する既存のジェイルブレイク攻撃は、安全性の調整を回避するストーリー/ロジックを構成するプロンプトレベルの手法と、勾配手法を活用して敵対的なトークンを見つけるトークンレベルの攻撃手法に分類できます。
この作業では、Ensemble Jailbreak の概念を導入し、プロンプト レベルとトークン レベルのジェイルブレイクをより強力なハイブリッド ジェイルブレイク攻撃に統合できる方法を検討します。
具体的には、プロンプトレベルのジェイルブレイクを使用して有害な命令を隠し、勾配ベースの攻撃を使用して攻撃の成功率を高め、テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案します。
私たちは、いくつかの連携モデルで EnJa の有効性を評価し、少ないクエリで最先端の攻撃成功率を達成し、個別のジェイルブレイクよりもはるかに強力であることを示しました。
要約(オリジナル)
As Large Language Models (LLMs) are increasingly being deployed in safety-critical applications, their vulnerability to potential jailbreaks — malicious prompts that can disable the safety mechanism of LLMs — has attracted growing research attention. While alignment methods have been proposed to protect LLMs from jailbreaks, many have found that aligned LLMs can still be jailbroken by carefully crafted malicious prompts, producing content that violates policy regulations. Existing jailbreak attacks on LLMs can be categorized into prompt-level methods which make up stories/logic to circumvent safety alignment and token-level attack methods which leverage gradient methods to find adversarial tokens. In this work, we introduce the concept of Ensemble Jailbreak and explore methods that can integrate prompt-level and token-level jailbreak into a more powerful hybrid jailbreak attack. Specifically, we propose a novel EnJa attack to hide harmful instructions using prompt-level jailbreak, boost the attack success rate using a gradient-based attack, and connect the two types of jailbreak attacks via a template-based connector. We evaluate the effectiveness of EnJa on several aligned models and show that it achieves a state-of-the-art attack success rate with fewer queries and is much stronger than any individual jailbreak.
arxiv情報
| 著者 | Jiahao Zhang,Zilong Wang,Ruofan Wang,Xingjun Ma,Yu-Gang Jiang |
| 発行日 | 2024-08-07 07:46:08+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google