DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks

要約

LLMが統合されたアプリケーションとエージェントは、迅速な注射攻撃に対して脆弱であり、攻撃者が入力にプロンプ​​トを注入して、攻撃者が決定する出力を誘導します。
検出方法は、指定された入力が注入プロンプトによって汚染されているかどうかを判断することを目的としています。
ただし、既存の検出方法は、適応的な攻撃は言うまでもなく、最先端の攻撃に対する有効性が限られています。
この作業では、迅速な噴射攻撃を検出するゲーム理論的方法であるDatasentinelを提案します。
具体的には、DatasentinelはLLMを微調整して、検出を回避するために戦略的に適合した注入プロンプトで汚染された入力を検出します。
これを、LLMを微調整して強力な適応攻撃を検出する目的で、Minimax最適化問題として定式化します。
さらに、内側の最大と外側の問題を交互に行うことにより、ミニマックス最適化問題を解決するための勾配ベースの方法を提案します。
複数のベンチマークデータセットとLLMでの評価結果は、Datasentinelが既存および適応迅速な噴射攻撃の両方を効果的に検出することを示しています。

要約(オリジナル)

LLM-integrated applications and agents are vulnerable to prompt injection attacks, where an attacker injects prompts into their inputs to induce attacker-desired outputs. A detection method aims to determine whether a given input is contaminated by an injected prompt. However, existing detection methods have limited effectiveness against state-of-the-art attacks, let alone adaptive ones. In this work, we propose DataSentinel, a game-theoretic method to detect prompt injection attacks. Specifically, DataSentinel fine-tunes an LLM to detect inputs contaminated with injected prompts that are strategically adapted to evade detection. We formulate this as a minimax optimization problem, with the objective of fine-tuning the LLM to detect strong adaptive attacks. Furthermore, we propose a gradient-based method to solve the minimax optimization problem by alternating between the inner max and outer min problems. Our evaluation results on multiple benchmark datasets and LLMs show that DataSentinel effectively detects both existing and adaptive prompt injection attacks.

arxiv情報

著者 Yupei Liu,Yuqi Jia,Jinyuan Jia,Dawn Song,Neil Zhenqiang Gong
発行日 2025-04-15 16:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク