FRACTURED-SORRY-Bench: Framework for Revealing Attacks in Conversational Turns Undermining Refusal Efficacy and Defenses over SORRY-Bench (Automated Multi-shot Jailbreaks)

要約

このペーパーでは、マルチターン会話攻撃に対する大規模言語モデル (LLM) の安全性を評価するためのフレームワークである FRACTURED-SORRY-Bench を紹介します。
SORRY-Bench データセットに基づいて、有害なクエリを一見無害に見えるサブ質問に分解することにより、敵対的なプロンプトを生成するためのシンプルかつ効果的な方法を提案します。
私たちのアプローチは、ベースライン手法と比較して、GPT-4、GPT-4o、GPT-4o-mini、および GPT-3.5-Turbo モデル全体で攻撃成功率 (ASR) の最大 +46.22\% の増加を達成します。
私たちは、この手法が現在の LLM の安全対策に課題をもたらしていることを実証し、微妙なマルチターン攻撃に対するより堅牢な防御の必要性を強調しています。

要約(オリジナル)

This paper introduces FRACTURED-SORRY-Bench, a framework for evaluating the safety of Large Language Models (LLMs) against multi-turn conversational attacks. Building upon the SORRY-Bench dataset, we propose a simple yet effective method for generating adversarial prompts by breaking down harmful queries into seemingly innocuous sub-questions. Our approach achieves a maximum increase of +46.22\% in Attack Success Rates (ASRs) across GPT-4, GPT-4o, GPT-4o-mini, and GPT-3.5-Turbo models compared to baseline methods. We demonstrate that this technique poses a challenge to current LLM safety measures and highlights the need for more robust defenses against subtle, multi-turn attacks.

arxiv情報

著者 Aman Priyanshu,Supriti Vijay
発行日 2024-11-07 15:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク