Iterative Prompting with Persuasion Skills in Jailbreaking Large Language Models

要約

大規模な言語モデル(LLM)は、応答の人間の価値に合わせて設計されています。
この研究は、各プロンプトが複数の反復で体系的に修正および改良され、徐々に攻撃攻​​撃での有効性を高めるために体系的に修正および改良されている反復プロンプト技術でLLMSを活用します。
この手法では、GPT-3.5、GPT-4、LLAMA2、VICUNA、およびCHATGLMなどのLLMの応答パターンを分析することで、LLMSの倫理的およびセキュリティ制約を回避するプロンプトを調整および最適化できます。
説得戦略は、悪意との一貫性を維持しながら、迅速な有効性を高めます。
我々の結果は、攻撃プロンプトがGPT4およびChatGlmで90%の最高のASR、Llama2で68%の最低ASRでより洗練されるにつれて、攻撃成功率(ASR)が増加することを示しています。
当社のテクニックは、ASRのベースラインテクニック(ペアとPAP)を上回り、GCGとArtPromptと同等のパフォーマンスを示しています。

要約(オリジナル)

Large language models (LLMs) are designed to align with human values in their responses. This study exploits LLMs with an iterative prompting technique where each prompt is systematically modified and refined across multiple iterations to enhance its effectiveness in jailbreaking attacks progressively. This technique involves analyzing the response patterns of LLMs, including GPT-3.5, GPT-4, LLaMa2, Vicuna, and ChatGLM, allowing us to adjust and optimize prompts to evade the LLMs’ ethical and security constraints. Persuasion strategies enhance prompt effectiveness while maintaining consistency with malicious intent. Our results show that the attack success rates (ASR) increase as the attacking prompts become more refined with the highest ASR of 90% for GPT4 and ChatGLM and the lowest ASR of 68% for LLaMa2. Our technique outperforms baseline techniques (PAIR and PAP) in ASR and shows comparable performance with GCG and ArtPrompt.

arxiv情報

著者 Shih-Wen Ke,Guan-Yu Lai,Guo-Lin Fang,Hsi-Yuan Kao
発行日 2025-03-26 08:40:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.ET パーマリンク