Jailbreaking Black Box Large Language Models in Twenty Queries

要約

大規模言語モデル (LLM) が人間の価値観と一致するようにすることへの関心が高まっています。
ただし、そのようなモデルの調整は敵対的なジェイルブレイクに対して脆弱であり、LLM を誘導して安全ガードレールを無効にさせます。
したがって、これらの脆弱性を特定することは、固有の弱点を理解し、将来の悪用を防ぐのに役立ちます。
この目的を達成するために、LLM へのブラックボックス アクセスのみでセマンティック ジェイルブレイクを生成するアルゴリズムである Prompt Automatic Iterative Refinement (PAIR) を提案します。
ソーシャル エンジニアリング攻撃にヒントを得た PAIR は、攻撃者 LLM を使用して、人間の介入なしに、別の対象となる LLM のジェイルブレイクを自動的に生成します。
このようにして、攻撃者 LLM はターゲット LLM に繰り返しクエリを実行して、ジェイルブレイク候補を更新および改良します。
経験的に、PAIR はジェイルブレイクを生成するために必要なクエリが 20 未満であることがよくあり、既存のアルゴリズムよりも桁違いに効率的です。
また、PAIR は、GPT-3.5/4、Vicuna、PaLM-2 などのオープンソースおよびクローズドソース LLM 上で、競争力のある脱獄成功率と転送可能性を実現します。

要約(オリジナル)

There is growing interest in ensuring that large language models (LLMs) align with human values. However, the alignment of such models is vulnerable to adversarial jailbreaks, which coax LLMs into overriding their safety guardrails. The identification of these vulnerabilities is therefore instrumental in understanding inherent weaknesses and preventing future misuse. To this end, we propose Prompt Automatic Iterative Refinement (PAIR), an algorithm that generates semantic jailbreaks with only black-box access to an LLM. PAIR — which is inspired by social engineering attacks — uses an attacker LLM to automatically generate jailbreaks for a separate targeted LLM without human intervention. In this way, the attacker LLM iteratively queries the target LLM to update and refine a candidate jailbreak. Empirically, PAIR often requires fewer than twenty queries to produce a jailbreak, which is orders of magnitude more efficient than existing algorithms. PAIR also achieves competitive jailbreaking success rates and transferability on open and closed-source LLMs, including GPT-3.5/4, Vicuna, and PaLM-2.

arxiv情報

著者 Patrick Chao,Alexander Robey,Edgar Dobriban,Hamed Hassani,George J. Pappas,Eric Wong
発行日 2023-10-12 15:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク