‘Moralized’ Multi-Step Jailbreak Prompts: Black-Box Testing of Guardrails in Large Language Models for Verbal Attacks

要約

大規模な言語モデルの適用がさまざまな分野で拡大し続けるにつれて、有害なコンテンツ生成とガードレールメカニズムを特定するという有効性に大きな課題をもたらします。
この研究の目的は、GPT-4O、GROK-2ベータ、Llama 3.1(405b)、Gemini 1.5、およびClaude 3.5ソネットのガードレールの有効性を、一見倫理的なマルチステップの脱獄プロンプトのブラックボックステストを通じて評価することを目的としています。
「プロモーションを競う企業の中間マネージャー」のシナリオをシミュレートする同一のマルチステッププロンプトを設計することにより、倫理的攻撃を実施します。
データの結果は、上記のLLMのガードレールがバイパスされ、言葉による攻撃の内容が生成されたことを示しています。
Claude 3.5 Sonnetのマルチステップの脱獄プロンプトに対する抵抗はより明白です。
客観性を確保するために、実験プロセス、ブラックボックステストコード、および強化されたガードレールコードは、githubリポジトリにアップロードされます:https://github.com/brucewang123456789/geniustrail.git。

要約(オリジナル)

As the application of large language models continues to expand in various fields, it poses higher challenges to the effectiveness of identifying harmful content generation and guardrail mechanisms. This research aims to evaluate the guardrail effectiveness of GPT-4o, Grok-2 Beta, Llama 3.1 (405B), Gemini 1.5, and Claude 3.5 Sonnet through black-box testing of seemingly ethical multi-step jailbreak prompts. It conducts ethical attacks by designing an identical multi-step prompts that simulates the scenario of ‘corporate middle managers competing for promotions.’ The data results show that the guardrails of the above-mentioned LLMs were bypassed and the content of verbal attacks was generated. Claude 3.5 Sonnet’s resistance to multi-step jailbreak prompts is more obvious. To ensure objectivity, the experimental process, black box test code, and enhanced guardrail code are uploaded to the GitHub repository: https://github.com/brucewang123456789/GeniusTrail.git.

arxiv情報

著者 Libo Wang
発行日 2025-03-20 14:48:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク