Comprehensive Assessment of Jailbreak Attacks Against LLMs

要約

大規模言語モデル (LLM) の誤用は、広範な懸念を引き起こしています。
この問題に対処するために、LLM が社会倫理に沿っていることを保証するための保護措置が講じられています。
しかし、最近の調査結果により、ジェイルブレイク攻撃として知られる、LLM の保護手段を回避する不安を引き起こす脆弱性が明らかになりました。
ロールプレイングのシナリオ、敵対的な例、または安全目標の微妙な破壊をプロンプトとして使用するなどのテクニックを適用することにより、LLM は不適切な、あるいは有害な反応を引き起こす可能性があります。
研究者はいくつかのカテゴリーの脱獄攻撃を研究してきましたが、単独で研究を行ってきました。
このギャップを埋めるために、さまざまなジェイルブレイク攻撃手法の最初の大規模な測定を紹介します。
4 つのカテゴリからの 13 の最先端の脱獄方法、16 の違反カテゴリからの 160 の質問、および 6 つの人気のある LLM に焦点を当てています。
私たちの広範な実験結果は、最適化されたジェイルブレイク プロンプトが一貫して最高の攻撃成功率を達成し、さまざまな LLM にわたって堅牢性を示すことを示しています。
インターネットから入手できる一部の脱獄プロンプト データセットは、ChatGLM3、GPT-3.5、PaLM2 などの多くの LLM に対して高い攻撃成功率を達成することもできます。
多くの組織がポリシーにおける違反カテゴリの適用範囲について主張しているにもかかわらず、これらのカテゴリからの攻撃の成功率は依然として高く、LLM ポリシーとジェイルブレイク攻撃に対抗する能力を効果的に調整することが課題であることを示しています。
また、攻撃のパフォーマンスと効率の間のトレードオフについても説明し、ジェイルブレイク プロンプトの転送可能性が依然として実行可能であり、ブラック ボックス モデルのオプションになることを示します。
全体として、私たちの調査は、さまざまな脱獄方法を評価する必要性を強調しています。
私たちの調査が、ジェイルブレイク攻撃に関する将来の研究に洞察を提供し、実践者にとってジェイルブレイク攻撃を評価するためのベンチマーク ツールとして機能することを願っています。

要約(オリジナル)

Misuse of the Large Language Models (LLMs) has raised widespread concern. To address this issue, safeguards have been taken to ensure that LLMs align with social ethics. However, recent findings have revealed an unsettling vulnerability bypassing the safeguards of LLMs, known as jailbreak attacks. By applying techniques, such as employing role-playing scenarios, adversarial examples, or subtle subversion of safety objectives as a prompt, LLMs can produce an inappropriate or even harmful response. While researchers have studied several categories of jailbreak attacks, they have done so in isolation. To fill this gap, we present the first large-scale measurement of various jailbreak attack methods. We concentrate on 13 cutting-edge jailbreak methods from four categories, 160 questions from 16 violation categories, and six popular LLMs. Our extensive experimental results demonstrate that the optimized jailbreak prompts consistently achieve the highest attack success rates, as well as exhibit robustness across different LLMs. Some jailbreak prompt datasets, available from the Internet, can also achieve high attack success rates on many LLMs, such as ChatGLM3, GPT-3.5, and PaLM2. Despite the claims from many organizations regarding the coverage of violation categories in their policies, the attack success rates from these categories remain high, indicating the challenges of effectively aligning LLM policies and the ability to counter jailbreak attacks. We also discuss the trade-off between the attack performance and efficiency, as well as show that the transferability of the jailbreak prompts is still viable, becoming an option for black-box models. Overall, our research highlights the necessity of evaluating different jailbreak methods. We hope our study can provide insights for future research on jailbreak attacks and serve as a benchmark tool for evaluating them for practitioners.

arxiv情報

著者 Junjie Chu,Yugeng Liu,Ziqing Yang,Xinyue Shen,Michael Backes,Yang Zhang
発行日 2024-02-08 13:42:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク