LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks

要約

安全性は、オープンな展開における大規模な言語モデル(LLMS)にとって最も重要な懸念であり、安全性の整合性またはガードレールメカニズムを通じて倫理的および責任ある使用を強制する保護方法の開発を動機付けます。
Safeguardメソッドの\ Emphing {false Negatives}を悪用する脱獄攻撃は、LLMセキュリティの分野で顕著な研究の焦点として浮上しています。
ただし、悪意のある攻撃者は、セーフガードの誤検知症を悪用することも、安全なコンテンツを誤ってブロックするために保護モデルを欺き、LLMユーザーに影響を与えるサービス拒否(DOS)につながる可能性があることがわかりました。
見落とされがちな脅威の知識ギャップを埋めるために、ユーザープロンプトテンプレートに短い敵対的なプロンプトを挿入し、毒殺された微調整によってサーバー上のLLMを破壊することを含む複数の攻撃方法を探ります。
どちらの方法でも、攻撃はクライアントからのユーザー要求の拒否を保護します。
私たちの評価は、複数のシナリオにわたるこの脅威の重大度を示しています。
たとえば、ホワイトボックスの敵対的なプロンプトインジェクションのシナリオでは、攻撃者は最適化プロセスを使用して、ラマガード3のユーザー要求の97%以上を普遍的にブロックすると、約30文字しか一見安全な敵対的なプロンプトを自動的に生成できます。

要約(オリジナル)

Safety is a paramount concern for large language models (LLMs) in open deployment, motivating the development of safeguard methods that enforce ethical and responsible use through safety alignment or guardrail mechanisms. Jailbreak attacks that exploit the \emph{false negatives} of safeguard methods have emerged as a prominent research focus in the field of LLM security. However, we found that the malicious attackers could also exploit false positives of safeguards, i.e., fooling the safeguard model to block safe content mistakenly, leading to a denial-of-service (DoS) affecting LLM users. To bridge the knowledge gap of this overlooked threat, we explore multiple attack methods that include inserting a short adversarial prompt into user prompt templates and corrupting the LLM on the server by poisoned fine-tuning. In both ways, the attack triggers safeguard rejections of user requests from the client. Our evaluation demonstrates the severity of this threat across multiple scenarios. For instance, in the scenario of white-box adversarial prompt injection, the attacker can use our optimization process to automatically generate seemingly safe adversarial prompts, approximately only 30 characters long, that universally block over 97% of user requests on Llama Guard 3. These findings reveal a new dimension in LLM safeguard evaluation — adversarial robustness to false positives.

arxiv情報

著者 Qingzhao Zhang,Ziyang Xiong,Z. Morley Mao
発行日 2025-04-09 15:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク