All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks


ChatGPT のような大規模言語モデル (LLM) は、安全装置が回避されて倫理的に有害なプロンプトが生成される「脱獄」の課題に直面しています。
提案された手法は、LLM がセーフガードを回避する式を直接サンプリングできるという仮説に基づいて、ターゲット LLM 自体を使用して、有害なプロンプトを無害な式に繰り返し書き換えます。
ChatGPT (GPT-3.5 および GPT-4) および Gemini-Pro を使用した実験を通じて実証されたこの方法は、平均 5 回の反復内で 80% 以上の攻撃成功率を達成し、モデルの更新にもかかわらず効果を維持しました。


Large Language Models (LLMs) like ChatGPT face `jailbreak’ challenges, where safeguards are bypassed to produce ethically harmful prompts. This study proposes a simple black-box method to effectively generate jailbreak prompts, overcoming the high complexity and computational costs associated with existing methods. The proposed technique iteratively rewrites harmful prompts into non-harmful expressions using the target LLM itself, based on the hypothesis that LLMs can directly sample expressions that bypass safeguards. Demonstrated through experiments with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, this method achieved an attack success rate of over 80% within an average of 5 iterations and remained effective despite model updates. The generated jailbreak prompts were naturally-worded and concise; moreover, they were difficult-to-defend. These results indicate that creating effective jailbreak prompts is simpler than previously considered, suggesting that black-box jailbreak attacks pose a more serious threat.


著者 Kazuhiro Takemoto
発行日 2024-01-22 06:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク