Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent

要約

このアプローチは、LLMに内蔵されたコンテンツセキュリティ対策を回避し、制限されたコンテンツを不注意に生成させるものである。このフレームワークの下で、「Obscure Intention」と「Create Ambiguity」という2つの実装について詳述する。これらは、クエリの複雑さと曖昧さを操作することで、悪意の検出を効果的に回避する。ChatGPT-3.5、ChatGPT-4、Qwen、Baichuanを含む複数のモデルでIntentObfuscatorメソッドの有効性を実証的に検証し、平均69.21%の脱獄成功率を達成しました。特に、ChatGPT-3.5のテストでは、1億人の週間アクティブ・ユーザが83.65%という驚くべき脱獄成功率を達成しました。また、グラフィックバイオレンス、人種差別、性差別、政治的敏感さ、サイバーセキュリティの脅威、犯罪スキルなど、様々な種類のセンシティブコンテンツにも検証を拡張し、LLMコンテンツセキュリティフレームワークに対する「レッドチーム」戦略の強化に、我々の発見が大きな影響を与えることをさらに証明しました。

要約(オリジナル)

To demonstrate and address the underlying maliciousness, we propose a theoretical hypothesis and analytical approach, and introduce a new black-box jailbreak attack methodology named IntentObfuscator, exploiting this identified flaw by obfuscating the true intentions behind user prompts.This approach compels LLMs to inadvertently generate restricted content, bypassing their built-in content security measures. We detail two implementations under this framework: ‘Obscure Intention’ and ‘Create Ambiguity’, which manipulate query complexity and ambiguity to evade malicious intent detection effectively. We empirically validate the effectiveness of the IntentObfuscator method across several models, including ChatGPT-3.5, ChatGPT-4, Qwen and Baichuan, achieving an average jailbreak success rate of 69.21\%. Notably, our tests on ChatGPT-3.5, which claims 100 million weekly active users, achieved a remarkable success rate of 83.65\%. We also extend our validation to diverse types of sensitive content like graphic violence, racism, sexism, political sensitivity, cybersecurity threats, and criminal skills, further proving the substantial impact of our findings on enhancing ‘Red Team’ strategies against LLM content security frameworks.

arxiv情報

著者 Shang Shang,Xinqiang Zhao,Zhongjiang Yao,Yepeng Yao,Liya Su,Zijing Fan,Xiaodan Zhang,Zhengwei Jiang
発行日 2024-05-06 17:26:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR パーマリンク