Endless Jailbreaks with Bijection Learning

要約

広範な安全対策にもかかわらず、LLM は敵対的な入力や脱獄に対して脆弱であり、危険な動作を引き起こす可能性があります。
この研究では、複雑さを厳密に制御できるランダムに生成されたエンコーディングを使用して、LLM の安全性の脆弱性を自動的にファジングする強力な攻撃アルゴリズムである全単射学習を導入します。
インコンテキスト学習を活用してモデルに全単射エンコーディングを教え、エンコードされたクエリをモデルに渡して組み込みの安全メカニズムをバイパスし、最後に応答をデコードして英語に戻します。
私たちの攻撃は、幅広いフロンティア言語モデルに対して非常に効果的です。
さらに、エンコーディングにおけるキーと値のマッピングの数などの複雑さのパラメーターを制御することにより、攻撃される LLM の能力レベルと最も効果的な全単射攻撃の平均複雑さとの間に密接な関係があることがわかります。
私たちの研究は、フロンティア モデルの新たな脆弱性が大規模に発生する可能性があることを浮き彫りにしています。つまり、より有能なモデルほどバイジェクション攻撃によってより深刻にジェイルブレイクされます。

要約(オリジナル)

Despite extensive safety measures, LLMs are vulnerable to adversarial inputs, or jailbreaks, which can elicit unsafe behaviors. In this work, we introduce bijection learning, a powerful attack algorithm which automatically fuzzes LLMs for safety vulnerabilities using randomly-generated encodings whose complexity can be tightly controlled. We leverage in-context learning to teach models bijective encodings, pass encoded queries to the model to bypass built-in safety mechanisms, and finally decode responses back into English. Our attack is extremely effective on a wide range of frontier language models. Moreover, by controlling complexity parameters such as number of key-value mappings in the encodings, we find a close relationship between the capability level of the attacked LLM and the average complexity of the most effective bijection attacks. Our work highlights that new vulnerabilities in frontier models can emerge with scale: more capable models are more severely jailbroken by bijection attacks.

arxiv情報

著者 Brian R. Y. Huang,Maximilian Li,Leonard Tang
発行日 2024-12-06 10:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク