Self-Deception: Reverse Penetrating the Semantic Firewall of Large Language Models

要約

ChatGPT などの大規模言語モデル (LLM) は、汎用人工知能に迫る驚くべき機能を備えて登場しました。
LLM はさまざまな社会ニーズに利便性を提供すると同時に、有害なコンテンツの生成コストも削減しました。
そのため、LLM 開発者は、不適切なコンテンツにつながる可能性のあるプロンプトを認識して拒否するために、セマンティック レベルの防御を導入しました。
残念ながら、これらの防御は確実ではなく、一部の攻撃者は、LLM に一時的に催眠術をかけ、コンテンツ防御ルールを忘れさせ、不適切な質問に答えさせる「脱獄」プロンプトを作成しました。
現在までのところ、産業界と学術界の両方において、これらの意味レベルの攻撃と防御の背後にある原理について明確な説明はありません。
この論文は、LLM 脱獄問題を調査し、自動脱獄方法を初めて提案します。
私たちはセマンティック ファイアウォールの概念を提案し、3 つの技術的な実装アプローチを提供します。
リバース トンネルを介して従来のファイアウォールを突破する攻撃にヒントを得て、脱獄を容易にするプロンプトを生成するように LLM を誘導することでセマンティック ファイアウォールをバイパスできる「自己欺瞞」攻撃を導入します。
7 つの仮想シナリオにわたって、6 つの言語 (英語、ロシア語、フランス語、スペイン語、中国語、アラビア語) で合計 2,520 の攻撃ペイロードを生成し、最も一般的な 3 種類の違反 (暴力、憎悪、ポルノ) をターゲットにしました。
実験は GPT-3.5-Turbo と GPT-4 の 2 つのモデルで実施されました。
2 つのモデルの成功率はそれぞれ 86.2% と 67%、失敗率は 4.7% と 2.2% でした。
これにより、提案された攻撃手法の有効性が浮き彫りになりました。
すべての実験コードと生データは、将来の研究を刺激するためにオープンソースとしてリリースされます。
私たちは、慎重に作成されたプロンプトを通じて AI の動作を操作することが、将来的には重要な研究の方向性になると信じています。

要約(オリジナル)

Large language models (LLMs), such as ChatGPT, have emerged with astonishing capabilities approaching artificial general intelligence. While providing convenience for various societal needs, LLMs have also lowered the cost of generating harmful content. Consequently, LLM developers have deployed semantic-level defenses to recognize and reject prompts that may lead to inappropriate content. Unfortunately, these defenses are not foolproof, and some attackers have crafted ‘jailbreak’ prompts that temporarily hypnotize the LLM into forgetting content defense rules and answering any improper questions. To date, there is no clear explanation of the principles behind these semantic-level attacks and defenses in both industry and academia. This paper investigates the LLM jailbreak problem and proposes an automatic jailbreak method for the first time. We propose the concept of a semantic firewall and provide three technical implementation approaches. Inspired by the attack that penetrates traditional firewalls through reverse tunnels, we introduce a ‘self-deception’ attack that can bypass the semantic firewall by inducing LLM to generate prompts that facilitate jailbreak. We generated a total of 2,520 attack payloads in six languages (English, Russian, French, Spanish, Chinese, and Arabic) across seven virtual scenarios, targeting the three most common types of violations: violence, hate, and pornography. The experiment was conducted on two models, namely the GPT-3.5-Turbo and GPT-4. The success rates on the two models were 86.2% and 67%, while the failure rates were 4.7% and 2.2%, respectively. This highlighted the effectiveness of the proposed attack method. All experimental code and raw data will be released as open-source to inspire future research. We believe that manipulating AI behavior through carefully crafted prompts will become an important research direction in the future.

arxiv情報

著者 Zhenhua Wang,Wei Xie,Kai Chen,Baosheng Wang,Zhiwen Gui,Enze Wang
発行日 2023-08-25 00:25:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク