Adversarial Suffix Filtering: a Defense Pipeline for LLMs

要約

大規模な言語モデル(LLM)は、自律システムと公共向け環境にますます組み込まれていますが、セキュリティと信頼性を損なう可能性のある脆弱性の影響を受けやすいままです。
敵対的な接尾辞は、現在の最先端の脱獄であり、一貫してよりシンプルな方法を上回っており、ブラックボックスの設定でも頻繁に成功すると考えられています。
既存の防御は、多様な展開を制限するモデルの内部アーキテクチャへのアクセスに依存しています。
$ \ textBf {逆面の接尾辞フィルタリング} $(ASF)を紹介します。これは、LLMSを敵対的な接尾辞攻撃から保護するために設計された軽量の新規モデルに依存しない防御パイプラインです。
ASFは、プロンプトで敵対的に作られた接尾辞を検出およびフィルターし、悪意のある注射を効果的に中和する入力前処理器と消毒剤として機能します。
ASFは、ブラックボックスとホワイトボックスの両方の攻撃設定で包括的な防御機能を提供し、最先端の敵対的な接尾辞生成方法の攻撃効果を4%未満に低下させ、非逆数シナリオでのターゲットモデルの機能に最小限に影響するだけであることを実証します。

要約(オリジナル)

Large Language Models (LLMs) are increasingly embedded in autonomous systems and public-facing environments, yet they remain susceptible to jailbreak vulnerabilities that may undermine their security and trustworthiness. Adversarial suffixes are considered to be the current state-of-the-art jailbreak, consistently outperforming simpler methods and frequently succeeding even in black-box settings. Existing defenses rely on access to the internal architecture of models limiting diverse deployment, increase memory and computation footprints dramatically, or can be bypassed with simple prompt engineering methods. We introduce $\textbf{Adversarial Suffix Filtering}$ (ASF), a lightweight novel model-agnostic defensive pipeline designed to protect LLMs against adversarial suffix attacks. ASF functions as an input preprocessor and sanitizer that detects and filters adversarially crafted suffixes in prompts, effectively neutralizing malicious injections. We demonstrate that ASF provides comprehensive defense capabilities across both black-box and white-box attack settings, reducing the attack efficacy of state-of-the-art adversarial suffix generation methods to below 4%, while only minimally affecting the target model’s capabilities in non-adversarial scenarios.

arxiv情報

著者 David Khachaturov,Robert Mullins
発行日 2025-05-14 17:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク