Siren: A Learning-Based Multi-Turn Attack Framework for Simulating Real-World Human Jailbreak Behaviors

要約

大規模な言語モデル(LLM)は、実際のアプリケーションで広く使用されており、その安全性と信頼性に関する懸念を引き起こしています。
ジェイルブレイクプロンプトを使用した赤い世話はLLMSの脆弱性を暴露しますが、現在の取り組みは主に単一ターン攻撃に焦点を当て、実際の敵が使用するマルチターン戦略を見落としています。
既存のマルチターンメソッドは、静的パターンまたは事前定義された論理チェーンに依存しており、攻撃中の動的戦略を説明できません。
実際の人間の脱獄行動をシミュレートするように設計された学習ベースのマルチターン攻撃フレームワークであるSirenを提案します。
サイレンは、3つの段階で構成されています。(1)トレーニングセットターンレベルのLLMフィードバック(ターンMF)、(2)監視付き微調整(SFT)および直接優先最適化(DPO)を備えたトレーニング後の攻撃者、および(3
)攻撃とターゲットLLMの相互作用。
実験は、サイレンがターゲットモデルとしてジェミニ-1.5-proに対する攻撃者としてllama-3-8bで攻撃成功率(ASR)を90%、GPT-4oに対してミストラル-7bで70%を達成し、単一の単一を大幅に上回ることを示しています。
-TURNベースライン。
さらに、7Bスケールのモデルを備えたサイレンは、GPT-4Oを攻撃者として活用するマルチターンベースラインに匹敵するパフォーマンスを実現しますが、より少ないターンを必要とし、攻撃目標に合わせてよりよく整合する分解戦略を採用します。
サイレンが、現実的なシナリオの下での高度なマルチターンジェイルブレイク攻撃に対するより強力な防御の発展を促すことを願っています。
コードはhttps://github.com/yiyiyizhao/sirenで入手できます。
警告:このペーパーには、潜在的に有害なテキストが含まれています。

要約(オリジナル)

Large language models (LLMs) are widely used in real-world applications, raising concerns about their safety and trustworthiness. While red-teaming with jailbreak prompts exposes the vulnerabilities of LLMs, current efforts focus primarily on single-turn attacks, overlooking the multi-turn strategies used by real-world adversaries. Existing multi-turn methods rely on static patterns or predefined logical chains, failing to account for the dynamic strategies during attacks. We propose Siren, a learning-based multi-turn attack framework designed to simulate real-world human jailbreak behaviors. Siren consists of three stages: (1) training set construction utilizing Turn-Level LLM feedback (Turn-MF), (2) post-training attackers with supervised fine-tuning (SFT) and direct preference optimization (DPO), and (3) interactions between the attacking and target LLMs. Experiments demonstrate that Siren achieves an attack success rate (ASR) of 90% with LLaMA-3-8B as the attacker against Gemini-1.5-Pro as the target model, and 70% with Mistral-7B against GPT-4o, significantly outperforming single-turn baselines. Moreover, Siren with a 7B-scale model achieves performance comparable to a multi-turn baseline that leverages GPT-4o as the attacker, while requiring fewer turns and employing decomposition strategies that are better semantically aligned with attack goals. We hope Siren inspires the development of stronger defenses against advanced multi-turn jailbreak attacks under realistic scenarios. Code is available at https://github.com/YiyiyiZhao/siren. Warning: This paper contains potentially harmful text.

arxiv情報

著者 Yi Zhao,Youzhi Zhang
発行日 2025-01-24 05:31:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク