Exploiting Uncommon Text-Encoded Structures for Automated Jailbreaks in LLMs

要約

大規模言語モデル (LLM) は自然言語処理で広く使用されていますが、有害なコンテンツの生成を悪意を持って誘導する脱獄攻撃のリスクに直面しています。
キャラクターレベルやコンテキストレベルの攻撃を含む既存のジェイルブレイク攻撃は、主にプレーンテキストのプロンプトに焦点を当てており、その構造の重大な影響を特に調査していません。
この論文では、迅速な構造がジェイルブレイク攻撃にどのように寄与するかを研究することに焦点を当てます。
私たちは、LLM トレーニング中にほとんど使用されないテール構造に基づいた新しい構造レベルの攻撃方法を導入します。これを Uncommon Text-Encoded Structure (UTES) と呼びます。
私たちは 12 の UTES テンプレートと 6 つの難読化手法を徹底的に研究し、構造攻撃、構造および文字/コンテキスト難読化攻撃、完全難読化構造攻撃という 3 つのエスカレートする攻撃戦略を含む StructuralSleight という名前の効果的な自動ジェイルブレイク ツールを構築しました。
既存の LLM に関する広範な実験により、StructuralSleight がベースライン手法を大幅に上回るパフォーマンスが示されています。
特に、GPT-4o では攻撃成功率が 94.62\% に達しますが、これは最先端の技術では対処されていません。

要約(オリジナル)

Large Language Models (LLMs) are widely used in natural language processing but face the risk of jailbreak attacks that maliciously induce them to generate harmful content. Existing jailbreak attacks, including character-level and context-level attacks, mainly focus on the prompt of the plain text without specifically exploring the significant influence of its structure. In this paper, we focus on studying how prompt structure contributes to the jailbreak attack. We introduce a novel structure-level attack method based on tail structures that are rarely used during LLM training, which we refer to as Uncommon Text-Encoded Structure (UTES). We extensively study 12 UTESs templates and 6 obfuscation methods to build an effective automated jailbreak tool named StructuralSleight that contains three escalating attack strategies: Structural Attack, Structural and Character/Context Obfuscation Attack, and Fully Obfuscated Structural Attack. Extensive experiments on existing LLMs show that StructuralSleight significantly outperforms baseline methods. In particular, the attack success rate reaches 94.62\% on GPT-4o, which has not been addressed by state-of-the-art techniques.

arxiv情報

著者 Bangxin Li,Hengrui Xing,Chao Huang,Jin Qian,Huangqing Xiao,Linfeng Feng,Cong Tian
発行日 2024-07-19 08:23:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク