Distract Large Language Models for Automatic Jailbreak Attack

要約

大規模言語モデル (LLM) の一般公開前に、その動作を人間の価値観に合わせるための広範な努力が行われてきました。
ただし、細心の注意を払って調整された LLM であっても、ジェイルブレイクなどの悪意のある操作に対して脆弱なままであり、意図しない動作につながります。
この研究では、LLM の自動レッド チーム化のための新しいブラック ボックス ジェイルブレイク フレームワークを提案します。
私たちは、LLM の気が散りやすい現象と自信過剰現象に関する研究を動機として、LLM をジェイルブレイクするための反復最適化アルゴリズムを使用した悪意のあるコンテンツの隠蔽とメモリのリフレーミングを設計しました。
オープンソースと独自の LLM の両方をジェイルブレイクする広範な実験により、有効性、スケーラビリティ、転送可能性の点で当社のフレームワークが優れていることが実証されました。
また、当社の攻撃に対する既存の脱獄防御方法の有効性を評価し、より効果的で実践的な防御戦略を開発する重要な必要性を強調します。

要約(オリジナル)

Extensive efforts have been made before the public release of Large language models (LLMs) to align their behaviors with human values. However, even meticulously aligned LLMs remain vulnerable to malicious manipulations such as jailbreaking, leading to unintended behaviors. In this work, we propose a novel black-box jailbreak framework for automated red teaming of LLMs. We designed malicious content concealing and memory reframing with an iterative optimization algorithm to jailbreak LLMs, motivated by the research about the distractibility and over-confidence phenomenon of LLMs. Extensive experiments of jailbreaking both open-source and proprietary LLMs demonstrate the superiority of our framework in terms of effectiveness, scalability and transferability. We also evaluate the effectiveness of existing jailbreak defense methods against our attack and highlight the crucial need to develop more effective and practical defense strategies.

arxiv情報

著者 Zeguan Xiao,Yan Yang,Guanhua Chen,Yun Chen
発行日 2024-09-30 14:25:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク