Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms

要約

コンテンツの警告:このホワイトペーパーには、読者にとって不快なLLMSによって生成される安全でないまたは有害なコンテンツが含まれている場合があります。
大規模な言語モデル(LLMS)は、構造化された出力APIを介したツールプラットフォームとして広く使用されており、エージェントシステムなどの既存のソフトウェアとの堅牢な統合が達成できるように、構文コンプライアンスを確保します。
ただし、文法誘導構造出力の機能を有効にする機能は、重要なセキュリティの脆弱性を示します。
この作業では、従来のデータプレーンの脆弱性に対するクリティカルコントロールプレーン攻撃面表面の直交を明らかにします。
制約されたデコード攻撃(CDA)を導入します。これは、構造化された出力制約を安全メカニズムに武器化する新しい脱獄クラスです。
入力プロンプトに焦点を当てた以前の攻撃とは異なり、CDAは、良性の表面プロンプト(データプレーン)を維持しながら、スキーマレベルの文法ルール(コントロールプレーン)に悪意を埋めることにより動作します。
これは、概念の証明チェーンエインム攻撃でインスタンス化され、GPT-4OやGemini-2.0-Flashを含む1つのクエリを備えた5つの安全ベンチマークで、独自およびオープンウェイトLLMで96.2%の攻撃成功率を達成します。
私たちの調査結果は、現在のLLMアーキテクチャにおける重要なセキュリティ死角を特定し、データプレーンの脅威のみに焦点を当てた現在のメカニズムが重要なシステムを露出させるため、制御面の脆弱性に対処するためにLLMの安全性のパラダイムシフトを促します。

要約(オリジナル)

Content Warning: This paper may contain unsafe or harmful content generated by LLMs that may be offensive to readers. Large Language Models (LLMs) are extensively used as tooling platforms through structured output APIs to ensure syntax compliance so that robust integration with existing softwares like agent systems, could be achieved. However, the feature enabling functionality of grammar-guided structured output presents significant security vulnerabilities. In this work, we reveal a critical control-plane attack surface orthogonal to traditional data-plane vulnerabilities. We introduce Constrained Decoding Attack (CDA), a novel jailbreak class that weaponizes structured output constraints to bypass safety mechanisms. Unlike prior attacks focused on input prompts, CDA operates by embedding malicious intent in schema-level grammar rules (control-plane) while maintaining benign surface prompts (data-plane). We instantiate this with a proof-of-concept Chain Enum Attack, achieves 96.2% attack success rates across proprietary and open-weight LLMs on five safety benchmarks with a single query, including GPT-4o and Gemini-2.0-flash. Our findings identify a critical security blind spot in current LLM architectures and urge a paradigm shift in LLM safety to address control-plane vulnerabilities, as current mechanisms focused solely on data-plane threats leave critical systems exposed.

arxiv情報

著者 Shuoming Zhang,Jiacheng Zhao,Ruiyuan Xu,Xiaobing Feng,Huimin Cui
発行日 2025-03-31 15:08:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク