Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models

要約

複数ターンのジェイルブレイク攻撃は、反復的な対話で大規模な言語モデル(LLM)を関与させ、重要な安全性の脆弱性を暴露することにより、実際の人間の相互作用をシミュレートします。
ただし、既存の方法は、セマンティックの一貫性と攻撃の有効性のバランスをとるのに苦労しており、その結果、良性のセマンティックドリフトまたは効果のない検出回避をもたらします。
この課題に対処するために、私たちは、安全整合を妥協するためのLLMSの強力な推論能力を良性の推論タスクとレバレッジに再forlutedする、有害なクエリを再定式化する新しいマルチターンジェイルブレイクフレームワークである推論を補給した会話を提案します。
具体的には、問題の翻訳と反復推論を体系的にモデル化するための攻撃状態マシンフレームワークを導入し、複数ターンにわたって一貫したクエリ生成を確保します。
このフレームワークに基づいて、攻撃セマンティクスを維持し、有効性を高め、推論主導型の攻撃進行を維持するために、ゲインガイドの探索、自己プレイ、拒否フィードバックモジュールを設計します。
複数のLLMでの広範な実験は、人種が複雑な会話シナリオで最先端の攻撃の有効性を達成し、攻撃の成功率(ASR)が最大96%増加することを示しています。
特に、私たちのアプローチは、Openai O1とDeepseek R1に対して、82%と92%のASRを達成し、その効力を強調しています。
この重要なドメインでのさらなる研究を促進するために、https://github.com/ny1024/raceでコードをリリースします。

要約(オリジナル)

Multi-turn jailbreak attacks simulate real-world human interactions by engaging large language models (LLMs) in iterative dialogues, exposing critical safety vulnerabilities. However, existing methods often struggle to balance semantic coherence with attack effectiveness, resulting in either benign semantic drift or ineffective detection evasion. To address this challenge, we propose Reasoning-Augmented Conversation, a novel multi-turn jailbreak framework that reformulates harmful queries into benign reasoning tasks and leverages LLMs’ strong reasoning capabilities to compromise safety alignment. Specifically, we introduce an attack state machine framework to systematically model problem translation and iterative reasoning, ensuring coherent query generation across multiple turns. Building on this framework, we design gain-guided exploration, self-play, and rejection feedback modules to preserve attack semantics, enhance effectiveness, and sustain reasoning-driven attack progression. Extensive experiments on multiple LLMs demonstrate that RACE achieves state-of-the-art attack effectiveness in complex conversational scenarios, with attack success rates (ASRs) increasing by up to 96%. Notably, our approach achieves ASRs of 82% and 92% against leading commercial models, OpenAI o1 and DeepSeek R1, underscoring its potency. We release our code at https://github.com/NY1024/RACE to facilitate further research in this critical domain.

arxiv情報

著者 Zonghao Ying,Deyue Zhang,Zonglei Jing,Yisong Xiao,Quanchen Zou,Aishan Liu,Siyuan Liang,Xiangzheng Zhang,Xianglong Liu,Dacheng Tao
発行日 2025-02-19 15:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク