Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent

要約

根底にある悪意を実証して対処するために、私たちは理論的な仮説と分析アプローチを提案し、IntentObfuscator と呼ばれる新しいブラックボックス ジェイルブレイク攻撃手法を導入し、ユーザー プロンプトの背後にある真の意図を難読化することでこの特定された欠陥を悪用します。このアプローチにより、LLM は不用意に生成することを余儀なくされます。
制限されたコンテンツは、組み込みのコンテンツ セキュリティ対策をバイパスします。
このフレームワークに基づく 2 つの実装、「Obscure Intention」と「Create Ambiguity」について詳しく説明します。これらは、クエリの複雑さと曖昧さを操作して悪意のある意図の検出を効果的に回避します。
私たちは、ChatGPT-3.5、ChatGPT-4、Qwen、Baichuan を含むいくつかのモデルにわたって IntentObfuscator メソッドの有効性を経験的に検証し、平均脱獄成功率 69.21\% を達成しました。
特に、毎週 1 億人のアクティブ ユーザーがいるとされる ChatGPT-3.5 でのテストでは、83.65\% という驚くべき成功率を達成しました。
また、グラフィック暴力、人種差別、性差別、政治的機密性、サイバーセキュリティの脅威、犯罪スキルなど、さまざまな種類の機密コンテンツにも検証を拡張し、LLM コンテンツ セキュリティ フレームワークに対する「レッド チーム」戦略の強化に対する調査結果の大きな影響をさらに証明しています。

要約(オリジナル)

To demonstrate and address the underlying maliciousness, we propose a theoretical hypothesis and analytical approach, and introduce a new black-box jailbreak attack methodology named IntentObfuscator, exploiting this identified flaw by obfuscating the true intentions behind user prompts.This approach compels LLMs to inadvertently generate restricted content, bypassing their built-in content security measures. We detail two implementations under this framework: ‘Obscure Intention’ and ‘Create Ambiguity’, which manipulate query complexity and ambiguity to evade malicious intent detection effectively. We empirically validate the effectiveness of the IntentObfuscator method across several models, including ChatGPT-3.5, ChatGPT-4, Qwen and Baichuan, achieving an average jailbreak success rate of 69.21\%. Notably, our tests on ChatGPT-3.5, which claims 100 million weekly active users, achieved a remarkable success rate of 83.65\%. We also extend our validation to diverse types of sensitive content like graphic violence, racism, sexism, political sensitivity, cybersecurity threats, and criminal skills, further proving the substantial impact of our findings on enhancing ‘Red Team’ strategies against LLM content security frameworks.

arxiv情報

著者 Shang Shang,Xinqiang Zhao,Zhongjiang Yao,Yepeng Yao,Liya Su,Zijing Fan,Xiaodan Zhang,Zhengwei Jiang
発行日 2024-05-07 10:20:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク