Emoji Attack: Enhancing Jailbreak Attacks Against Judge LLM Detection

要約

脱獄技術は、大規模な言語モデル(LLMS)をだまして制限された出力を生成し、深刻な脅威をもたらします。
防衛線の1つは、別のLLMを裁判官として使用して、生成されたテキストの有害性を評価することです。
ただし、これらの裁判官LLMはトークンセグメンテーションバイアスに対して脆弱であることを明らかにします。これは、デリミターがトークン化プロセスを変更し、単語をより小さなサブトークンに分割する場合に発生する問題です。
これにより、シーケンス全体の埋め込みが混乱し、検出精度が低下し、有害なコンテンツを安全に誤分類できるようになります。
この論文では、トークンセグメンテーションバイアスを活用することにより、既存の脱獄プロンプトを増幅する新しい戦略である絵文字攻撃を紹介します。
私たちのメソッドは、裁判官LLMによって評価される前に絵文字を体系的にテキストに挿入するように学習することをレバレッジ内で活用し、不安定なコンテンツを検出する可能性を大幅に低下させる埋め込み歪みを誘導します。
従来のデリミターとは異なり、絵文字はセマンティックのあいまいさも導入し、この攻撃で特に効果的になります。
最先端の裁判官LLMSに関する実験を通じて、絵文字攻撃により、既存の保護手段を迂回して「危険な」予測レートが大幅に低下することが実証されています。

要約(オリジナル)

Jailbreaking techniques trick Large Language Models (LLMs) into producing restricted outputs, posing a serious threat. One line of defense is to use another LLM as a Judge to evaluate the harmfulness of generated text. However, we reveal that these Judge LLMs are vulnerable to token segmentation bias, an issue that arises when delimiters alter the tokenization process, splitting words into smaller sub-tokens. This disrupts the embeddings of the entire sequence, reducing detection accuracy and allowing harmful content to be misclassified as safe. In this paper, we introduce Emoji Attack, a novel strategy that amplifies existing jailbreak prompts by exploiting token segmentation bias. Our method leverages in-context learning to systematically insert emojis into text before it is evaluated by a Judge LLM, inducing embedding distortions that significantly lower the likelihood of detecting unsafe content. Unlike traditional delimiters, emojis also introduce semantic ambiguity, making them particularly effective in this attack. Through experiments on state-of-the-art Judge LLMs, we demonstrate that Emoji Attack substantially reduces the ‘unsafe’ prediction rate, bypassing existing safeguards.

arxiv情報

著者 Zhipeng Wei,Yuqi Liu,N. Benjamin Erichson
発行日 2025-02-18 17:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク