Tastle: Distract Large Language Models for Automatic Jailbreak Attack

要約

大規模言語モデル (LLM) は、ここ数日で大幅な進歩を遂げました。
LLM の一般公開前に、LLM の行動を人間の価値観と一致させるために広範な努力が行われてきました。
調整の主な目的は、それらの有用性、誠実さ、無害性を確保することです。
ただし、細心の注意を払って調整された LLM であっても、ジェイルブレイクなどの悪意のある操作に対して脆弱なままであり、意図しない動作につながります。
ジェイルブレイクは、LLM セキュリティ制限を回避する悪意のあるプロンプトを意図的に開発し、無検閲の有害なコンテンツを生成することです。
これまでの研究では、レッド チーム LLM のさまざまなジェイルブレイク方法が検討されていましたが、有効性とスケーラビリティに関して課題に直面しました。
この研究では、LLM の自動レッド チーム化のための新しいブラックボックス ジェイルブレイク フレームワークである Tastle を提案します。
私たちは、LLM の気が散りやすい現象と自信過剰現象に関する研究を動機として、LLM をジェイルブレイクするための反復最適化アルゴリズムを使用した悪意のあるコンテンツの隠蔽とメモリのリフレーミングを設計しました。
オープンソースと独自の LLM の両方をジェイルブレイクする広範な実験により、有効性、スケーラビリティ、転送可能性の点で当社のフレームワークが優れていることが実証されました。
また、当社の攻撃に対する既存の脱獄防御方法の有効性を評価し、より効果的で実践的な防御戦略を開発する重要な必要性を強調します。

要約(オリジナル)

Large language models (LLMs) have achieved significant advances in recent days. Extensive efforts have been made before the public release of LLMs to align their behaviors with human values. The primary goal of alignment is to ensure their helpfulness, honesty and harmlessness. However, even meticulously aligned LLMs remain vulnerable to malicious manipulations such as jailbreaking, leading to unintended behaviors. The jailbreak is to intentionally develop a malicious prompt that escapes from the LLM security restrictions to produce uncensored detrimental contents. Previous works explore different jailbreak methods for red teaming LLMs, yet they encounter challenges regarding to effectiveness and scalability. In this work, we propose Tastle, a novel black-box jailbreak framework for automated red teaming of LLMs. We designed malicious content concealing and memory reframing with an iterative optimization algorithm to jailbreak LLMs, motivated by the research about the distractibility and over-confidence phenomenon of LLMs. Extensive experiments of jailbreaking both open-source and proprietary LLMs demonstrate the superiority of our framework in terms of effectiveness, scalability and transferability. We also evaluate the effectiveness of existing jailbreak defense methods against our attack and highlight the crucial need to develop more effective and practical defense strategies.

arxiv情報

著者 Zeguan Xiao,Yan Yang,Guanhua Chen,Yun Chen
発行日 2024-03-13 11:16:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク