SequentialBreak: Large Language Models Can be Fooled by Embedding Jailbreak Prompts into Sequential Prompt Chains

要約

大規模な言語モデル(LLMS)がさまざまなアプリケーションに統合されると、誤用の感受性も増加すると、重大なセキュリティ上の懸念が高まります。
LLMSのセキュリティ防衛を評価するために、多数の脱獄攻撃が提案されています。
現在の脱獄攻撃は、主にシナリオカモフラージュ、迅速な難読化、迅速な最適化、および悪意のあるプロンプトを隠すための迅速な反復最適化に依存しています。
特に、単一のクエリのシーケンシャルプロンプトチェーンは、LLMSが特定のプロンプトに焦点を合わせながら、他のプロンプトを無視し、コンテキスト操作を促進する可能性があります。
このペーパーでは、この脆弱性を活用する新しい脱獄攻撃であるシーケンシャルブレイクを紹介します。
質問バンク、ダイアログの完了、ゲーム環境などの例に限定されないいくつかのシナリオについて説明します。ここでは、有害なプロンプトがLLMSをだまして有害な応答を生成できるように埋め込まれています。
これらのシナリオの明確な物語構造は、シーケンシャルブレイクが議論されているものを超えたさまざまな迅速な形式に適応するのに十分な柔軟性があることを示しています。
広範な実験では、SequentialBreakが1つのクエリのみを使用して、オープンソースモデルとクローズドソースモデルの両方に対して既存のベースラインにわたって攻撃成功率の大幅なゲインを達成することを示しています。
私たちの研究を通じて、LLMのセキュリティを強化し、潜在的な誤用を防ぐために、より堅牢で回復力のある保護手段の緊急の必要性を強調しています。
この調査に関連付けられたすべての結果ファイルとWebサイトは、このGitHubリポジトリで入手できます:https://anonymous.4open.science/r/jail Breakatcack-4f3b/。

要約(オリジナル)

As the integration of the Large Language Models (LLMs) into various applications increases, so does their susceptibility to misuse, raising significant security concerns. Numerous jailbreak attacks have been proposed to assess the security defense of LLMs. Current jailbreak attacks mainly rely on scenario camouflage, prompt obfuscation, prompt optimization, and prompt iterative optimization to conceal malicious prompts. In particular, sequential prompt chains in a single query can lead LLMs to focus on certain prompts while ignoring others, facilitating context manipulation. This paper introduces SequentialBreak, a novel jailbreak attack that exploits this vulnerability. We discuss several scenarios, not limited to examples like Question Bank, Dialog Completion, and Game Environment, where the harmful prompt is embedded within benign ones that can fool LLMs into generating harmful responses. The distinct narrative structures of these scenarios show that SequentialBreak is flexible enough to adapt to various prompt formats beyond those discussed. Extensive experiments demonstrate that SequentialBreak uses only a single query to achieve a substantial gain of attack success rate over existing baselines against both open-source and closed-source models. Through our research, we highlight the urgent need for more robust and resilient safeguards to enhance LLM security and prevent potential misuse. All the result files and website associated with this research are available in this GitHub repository: https://anonymous.4open.science/r/JailBreakAttack-4F3B/.

arxiv情報

著者 Bijoy Ahmed Saiem,MD Sadik Hossain Shanto,Rakib Ahsan,Md Rafi ur Rashid
発行日 2025-02-14 16:32:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク