Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions

要約

大規模な言語モデルは、人間の価値観や倫理原則と広範囲に一致しているにもかかわらず、推論能力を悪用する高度なジェイルブレイク攻撃に対して脆弱なままです。
既存の安全対策は、多くの場合、明白な悪意を検出できますが、微妙な推論主導型の脆弱性には対処できません。
この研究では、対照的な推論を利用して非倫理的な応答を引き起こす新しいジェイルブレイク技術である POATE (Polar Opposite クエリ生成、敵対的テンプレート構築、およびエラボレーション) を紹介します。
POATE は、意味的に反対の意図を作成し、それらを敵対的なテンプレートと統合し、驚くべき繊細さで有害な出力に向けてモデルを操作します。
私たちは、さまざまなパラメーター サイズの 6 つの多様な言語モデル ファミリにわたって広範な評価を実施し、攻撃の堅牢性を実証し、既存の方法と比較して大幅に高い攻撃成功率 (約 44%) を達成しました。
これに対抗するために、クエリを分解して悪意を検出し、逆に推論して有害な応答を評価および拒否する、Intent-Aware CoT および Reverse Thinking CoT を提案します。
これらの方法により、推論の堅牢性が強化され、敵対的なエクスプロイトに対するモデルの防御が強化されます。

要約(オリジナル)

Large language models, despite extensive alignment with human values and ethical principles, remain vulnerable to sophisticated jailbreak attacks that exploit their reasoning abilities. Existing safety measures often detect overt malicious intent but fail to address subtle, reasoning-driven vulnerabilities. In this work, we introduce POATE (Polar Opposite query generation, Adversarial Template construction, and Elaboration), a novel jailbreak technique that harnesses contrastive reasoning to provoke unethical responses. POATE crafts semantically opposing intents and integrates them with adversarial templates, steering models toward harmful outputs with remarkable subtlety. We conduct extensive evaluation across six diverse language model families of varying parameter sizes to demonstrate the robustness of the attack, achieving significantly higher attack success rates (~44%) compared to existing methods. To counter this, we propose Intent-Aware CoT and Reverse Thinking CoT, which decompose queries to detect malicious intent and reason in reverse to evaluate and reject harmful responses. These methods enhance reasoning robustness and strengthen the model’s defense against adversarial exploits.

arxiv情報

著者 Rachneet Sachdeva,Rima Hazra,Iryna Gurevych
発行日 2025-01-09 10:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク