Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs

要約

クリエイティブ ライティング、コード生成、翻訳に使用されるラージ言語モデル (LLM) は、入力シーケンスに基づいてテキストを生成しますが、細工されたプロンプトが有害な出力を誘発するジェイルブレイク攻撃に対して脆弱です。
ほとんどの脱獄プロンプト方法では、脱獄テンプレートとそれに続く質問を組み合わせて脱獄プロンプトを作成します。
ただし、既存の脱獄プロンプトの設計は一般に過度のセマンティクスの違いに悩まされており、その結果、単純なセマンティクスのメトリクスをしきい値として使用する防御に抵抗できなくなります。
脱獄プロンプトは、クエリに使用される元の質問よりも意味的に多様です。
このペーパーでは、元の質問と意味的に類似したジェイルブレイク プロンプトを生成することで LLM をバイパスするセマンティック ミラー ジェイルブレイク (SMJ) アプローチを紹介します。
意味的な類似性と脱獄の妥当性の両方を満たす脱獄プロンプトの検索を多目的最適化問題としてモデル化し、適格なプロンプトを生成するために標準化された遺伝的アルゴリズムのセットを採用します。
ベースラインの AutoDAN-GA と比較して、SMJ は、ONION 防御なしでは最大 35.4% 高く、ONION 防御ありでは 85.2% 高い攻撃成功率 (ASR) を達成します。
脱獄プロンプト、類似性、外れ値の 3 つの意味的意味指標すべてにおいて SMJ のパフォーマンスが優れているということは、SMJ がこれらの指標をしきい値として使用する防御に耐性があることも意味します。

要約(オリジナル)

Large Language Models (LLMs), used in creative writing, code generation, and translation, generate text based on input sequences but are vulnerable to jailbreak attacks, where crafted prompts induce harmful outputs. Most jailbreak prompt methods use a combination of jailbreak templates followed by questions to ask to create jailbreak prompts. However, existing jailbreak prompt designs generally suffer from excessive semantic differences, resulting in an inability to resist defenses that use simple semantic metrics as thresholds. Jailbreak prompts are semantically more varied than the original questions used for queries. In this paper, we introduce a Semantic Mirror Jailbreak (SMJ) approach that bypasses LLMs by generating jailbreak prompts that are semantically similar to the original question. We model the search for jailbreak prompts that satisfy both semantic similarity and jailbreak validity as a multi-objective optimization problem and employ a standardized set of genetic algorithms for generating eligible prompts. Compared to the baseline AutoDAN-GA, SMJ achieves attack success rates (ASR) that are at most 35.4% higher without ONION defense and 85.2% higher with ONION defense. SMJ’s better performance in all three semantic meaningfulness metrics of Jailbreak Prompt, Similarity, and Outlier, also means that SMJ is resistant to defenses that use those metrics as thresholds.

arxiv情報

著者 Xiaoxia Li,Siyuan Liang,Jiyi Zhang,Han Fang,Aishan Liu,Ee-Chien Chang
発行日 2024-02-27 13:49:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.NE パーマリンク