Formalizing and Benchmarking Prompt Injection Attacks and Defenses

要約

プロンプトインジェクション攻撃は、悪意のある命令/データを LLM 統合アプリケーションの入力に挿入し、攻撃者の望む結果を生み出すことを目的としています。
既存の作品はケーススタディに限定されています。
その結果、文献には即時注入攻撃とその防御についての体系的な理解が欠けています。
私たちはこの取り組みでギャップを埋めることを目指しています。
特に、プロンプトインジェクション攻撃を形式化するためのフレームワークを提案します。
既存の攻撃は、私たちのフレームワークでは特殊なケースです。
さらに、フレームワークに基づいて、既存の攻撃を組み合わせて新しい攻撃を設計します。
私たちのフレームワークを使用して、10 の LLM と 7 つのタスクによる 5 つのプロンプト インジェクション攻撃と 10 の防御について体系的な評価を実行します。
私たちの研究は、将来のプロンプト インジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供します。
このトピックに関する研究を促進するために、https://github.com/liu00222/Open-Prompt-Injection でプラットフォームを公開しています。

要約(オリジナル)

A prompt injection attack aims to inject malicious instruction/data into the input of an LLM-Integrated Application such that it produces results as an attacker desires. Existing works are limited to case studies. As a result, the literature lacks a systematic understanding of prompt injection attacks and their defenses. We aim to bridge the gap in this work. In particular, we propose a framework to formalize prompt injection attacks. Existing attacks are special cases in our framework. Moreover, based on our framework, we design a new attack by combining existing ones. Using our framework, we conduct a systematic evaluation on 5 prompt injection attacks and 10 defenses with 10 LLMs and 7 tasks. Our work provides a common benchmark for quantitatively evaluating future prompt injection attacks and defenses. To facilitate research on this topic, we make our platform public at https://github.com/liu00222/Open-Prompt-Injection.

arxiv情報

著者 Yupei Liu,Yuqi Jia,Runpeng Geng,Jinyuan Jia,Neil Zhenqiang Gong
発行日 2024-05-30 17:09:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG パーマリンク