要約
大規模な言語モデル(LLMS)ガードレールシステムは、迅速な噴射および脱獄攻撃から保護するように設計されています。
しかし、それらは回避技術に対して脆弱なままです。
従来の特性注射方法とアルゴリズム逆境機械学習(AML)回避技術を介してLLM迅速な注入と脱獄検出システムをバイパスするための2つのアプローチを示します。
MicrosoftのAzure Prompt ShieldやMetaのプロンプトガードを含む6つの著名な保護システムに対するテストを通じて、両方の方法を使用して検出を回避しながら、最大100%の回避成功の場合によっては敵対的なユーティリティを維持できることを示しています。
さらに、敵は、オフラインのホワイトボックスモデルによって計算された単語の重要性ランキングを活用することにより、ブラックボックスターゲットに対する攻撃成功率(ASR)を強化できることを実証します。
私たちの調査結果は、現在のLLM保護メカニズム内の脆弱性を明らかにし、より堅牢なガードレールシステムの必要性を強調しています。
要約(オリジナル)
Large Language Models (LLMs) guardrail systems are designed to protect against prompt injection and jailbreak attacks. However, they remain vulnerable to evasion techniques. We demonstrate two approaches for bypassing LLM prompt injection and jailbreak detection systems via traditional character injection methods and algorithmic Adversarial Machine Learning (AML) evasion techniques. Through testing against six prominent protection systems, including Microsoft’s Azure Prompt Shield and Meta’s Prompt Guard, we show that both methods can be used to evade detection while maintaining adversarial utility achieving in some instances up to 100% evasion success. Furthermore, we demonstrate that adversaries can enhance Attack Success Rates (ASR) against black-box targets by leveraging word importance ranking computed by offline white-box models. Our findings reveal vulnerabilities within current LLM protection mechanisms and highlight the need for more robust guardrail systems.
arxiv情報
著者 | William Hackett,Lewis Birch,Stefan Trawicki,Neeraj Suri,Peter Garraghan |
発行日 | 2025-04-16 15:33:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google