All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks

要約

ChatGPT のような大規模言語モデル (LLM) は、安全装置が回避されて倫理的に有害なプロンプトが生成される「脱獄」の課題に直面しています。
この研究では、既存の方法に伴う高い複雑さと計算コストを克服し、脱獄プロンプトを効果的に生成するためのシンプルなブラックボックス方法を提案します。
提案された手法は、LLM がセーフガードを回避する式を直接サンプリングできるという仮説に基づいて、ターゲット LLM 自体を使用して、有害なプロンプトを無害な式に繰り返し書き換えます。
ChatGPT (GPT-3.5 および GPT-4) および Gemini-Pro を使用した実験を通じて実証されたこの方法は、平均 5 回の反復内で 80% 以上の攻撃成功率を達成し、モデルの更新にもかかわらず効果を維持しました。
生成された脱獄プロンプトは自然な言葉遣いで簡潔でした。
さらに、彼らは防御するのが困難でした。
これらの結果は、効果的な脱獄プロンプトの作成がこれまで考えられていたよりも簡単であることを示しており、ブラックボックス脱獄攻撃がより深刻な脅威をもたらすことを示唆しています。

要約(オリジナル)

Large Language Models (LLMs) like ChatGPT face `jailbreak’ challenges, where safeguards are bypassed to produce ethically harmful prompts. This study proposes a simple black-box method to effectively generate jailbreak prompts, overcoming the high complexity and computational costs associated with existing methods. The proposed technique iteratively rewrites harmful prompts into non-harmful expressions using the target LLM itself, based on the hypothesis that LLMs can directly sample expressions that bypass safeguards. Demonstrated through experiments with ChatGPT (GPT-3.5 and GPT-4) and Gemini-Pro, this method achieved an attack success rate of over 80% within an average of 5 iterations and remained effective despite model updates. The generated jailbreak prompts were naturally-worded and concise; moreover, they were difficult-to-defend. These results indicate that creating effective jailbreak prompts is simpler than previously considered, suggesting that black-box jailbreak attacks pose a more serious threat.

arxiv情報

著者 Kazuhiro Takemoto
発行日 2024-01-22 06:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク