All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks

要約

ChatGPT のような大規模言語モデル (LLM) は、安全装置が回避されて倫理的に有害なプロンプトが生成される「脱獄」の課題に直面しています。
この研究では、既存の方法に伴う高い複雑さと計算コストの制限を克服して、脱獄プロンプトを効果的に生成するためのシンプルなブラックボックス方法を紹介します。
提案された手法は、LLM がセーフガードをバイパスする式を直接サンプリングできるという仮説に基づいて、ターゲット LLM 自体を使用して、有害なプロンプトを無害な式に繰り返し書き換えます。
ChatGPT (GPT-3.5 および GPT-4) および Gemini-Pro を使用した実験を通じて実証されたこの方法は、平均 5 回の反復内で 80% 以上の攻撃成功率を達成し、モデルの更新にもかかわらず効果を維持しました。
生成された脱獄プロンプトは自然な言葉遣いで簡潔であり、検出されにくいことを示唆しています。
この結果は、効果的なジェイルブレイク プロンプトの作成がこれまで考えられていたよりも簡単で、ブラックボックス ジェイルブレイク攻撃がより深刻なセキュリティ上の脅威となることを示しています。

要約(オリジナル)

Large Language Models (LLMs) like ChatGPT face `jailbreak’ challenges, where safeguards are bypassed to produce ethically harmful prompts. This study introduces a simple black-box method to effectively generate jailbreak prompts, overcoming the limitations of high complexity and computational costs associated with existing methods. The proposed technique iteratively rewrites harmful prompts into non-harmful expressions using the target LLM itself, based on the hypothesis that LLMs can directly sample safeguard-bypassing expressions. Demonstrated through experiments with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, this method achieved an attack success rate of over 80% within an average of 5 iterations and remained effective despite model updates. The jailbreak prompts generated were naturally-worded and concise, suggesting they are less detectable. The results indicate that creating effective jailbreak prompts is simpler than previously considered, and black-box jailbreak attacks pose a more serious security threat.

arxiv情報

著者 Kazuhiro Takemoto
発行日 2024-01-18 08:36:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク