Safeguard is a Double-edged Sword: Denial-of-service Attack on Large Language Models

要約

安全性は、オープン展開における大規模言語モデル (LLM) の最大の関心事です。
この目的を達成するために、セーフガード手法は、安全調整またはガードレール メカニズムを通じて LLM の倫理的かつ責任ある使用を強制することを目的としています。
しかし、悪意のある攻撃者がセーフガードの誤検知を悪用する可能性があることがわかりました。つまり、セーフガード モデルをだまして安全なコンテンツを誤ってブロックし、LLM に対する新たなサービス拒否 (DoS) 攻撃につながる可能性があります。
具体的には、ユーザー クライアント ソフトウェアに対するソフトウェア攻撃またはフィッシング攻撃によって、攻撃者は、構成ファイル内のユーザー プロンプト テンプレートに、一見無害に見える短い敵対的なプロンプトを挿入します。
したがって、このプロンプトは、ユーザー インターフェイスには表示されずに最終的なユーザー要求に表示され、識別するのは簡単ではありません。
勾配と注意情報を利用する最適化プロセスを設計することにより、私たちの攻撃は、Llama Guard 3 上のユーザー リクエストの 97\% 以上を普遍的にブロックする、一見安全な敵対的プロンプト (わずか約 30 文字) を自動的に生成できます。 この攻撃は、新しい次元の攻撃を提示します。
古典的なジェイルブレイクとは根本的に異なる、誤検知に焦点を当てた LLM セーフガードを評価します。

要約(オリジナル)

Safety is a paramount concern of large language models (LLMs) in their open deployment. To this end, safeguard methods aim to enforce the ethical and responsible use of LLMs through safety alignment or guardrail mechanisms. However, we found that the malicious attackers could exploit false positives of safeguards, i.e., fooling the safeguard model to block safe content mistakenly, leading to a new denial-of-service (DoS) attack on LLMs. Specifically, by software or phishing attacks on user client software, attackers insert a short, seemingly innocuous adversarial prompt into to user prompt templates in configuration files; thus, this prompt appears in final user requests without visibility in the user interface and is not trivial to identify. By designing an optimization process that utilizes gradient and attention information, our attack can automatically generate seemingly safe adversarial prompts, approximately only 30 characters long, that universally block over 97\% of user requests on Llama Guard 3. The attack presents a new dimension of evaluating LLM safeguards focusing on false positives, fundamentally different from the classic jailbreak.

arxiv情報

著者 Qingzhao Zhang,Ziyang Xiong,Z. Morley Mao
発行日 2024-10-23 17:26:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク