TokenBreak: Bypassing Text Classification Models Through Token Manipulation

要約

自然言語処理(NLP)モデルは、分類や生成などのテキスト関連のタスクに使用されます。
これらのタスクを完了するために、入力データは最初に人間の読み取り可能なテキストからモデルが理解できる形式にトークン化され、推論を行い、コンテキストを理解できるようにします。
テキスト分類モデルは、大規模な言語モデル(LLMS)に対する迅速なインジェクション攻撃、SPAMメールなどのサイバーセキュリティリスクなどの脅威などの脅威を防ぐために実装できます。
この論文では、Tokenbreak:Tokenbreak:Token Break:それらが使用するトークン化戦略を活用することでこれらの保護モデルをバイパスできる新しい攻撃を紹介します。
この攻撃手法は、特定のモデルが間違った分類を与えるように入力テキストを操作します。
重要なことに、最終ターゲット(LLMまたは電子メール受信者)は、操作されたテキストを理解して応答することができ、したがって、保護モデルが導入されたまさに攻撃に対して脆弱であることです。
トークン剤はモデルアーキテクチャに結び付けられています。つまり、モデルが家族に基づいて攻撃に対して脆弱であるかどうかを予測することが可能です。
また、防御モデルを再訓練することなく実装できる追加の保護層として防御戦略を提示します。

要約(オリジナル)

Natural Language Processing (NLP) models are used for text-related tasks such as classification and generation. To complete these tasks, input data is first tokenized from human-readable text into a format the model can understand, enabling it to make inferences and understand context. Text classification models can be implemented to guard against threats such as prompt injection attacks against Large Language Models (LLMs), toxic input and cybersecurity risks such as spam emails. In this paper, we introduce TokenBreak: a novel attack that can bypass these protection models by taking advantage of the tokenization strategy they use. This attack technique manipulates input text in such a way that certain models give an incorrect classification. Importantly, the end target (LLM or email recipient) can still understand and respond to the manipulated text and therefore be vulnerable to the very attack the protection model was put in place to prevent. The tokenizer is tied to model architecture, meaning it is possible to predict whether or not a model is vulnerable to attack based on family. We also present a defensive strategy as an added layer of protection that can be implemented without having to retrain the defensive model.

arxiv情報

著者 Kasimir Schulz,Kenneth Yeung,Kieran Evans
発行日 2025-06-09 17:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク