Neural Exec: Learning (and Learning from) Execution Triggers for Prompt Injection Attacks

要約

Neural Exec と呼ばれる新しいプロンプト インジェクション攻撃ファミリーを導入します。
手作りの文字列 (「前の指示を無視して…」など) に依存する既知の攻撃とは異なり、実行トリガーの作成を微分可能な検索問題として概念化し、学習ベースの手法を使用してそれらを自律的に生成することが可能であることを示します。

私たちの結果は、動機のある敵が、現在手作りされているものよりも大幅に効果的なトリガーを偽造できるだけでなく、形状、特性、機能において固有の柔軟性を示すことを示しています。
この方向では、検索拡張生成 (RAG) ベースのアプリケーションの場合など、多段階の前処理パイプラインを通じて永続化できる Neural Exec を攻撃者が設計および生成できることを示します。
さらに重要なことに、私たちの調査結果は、攻撃者が既知の攻撃とは形式的に著しく異なるトリガーを生成し、既存のブラックリストに基づく検出および衛生化アプローチを回避できることを示しています。

要約(オリジナル)

We introduce a new family of prompt injection attacks, termed Neural Exec. Unlike known attacks that rely on handcrafted strings (e.g., ‘Ignore previous instructions and…’), we show that it is possible to conceptualize the creation of execution triggers as a differentiable search problem and use learning-based methods to autonomously generate them. Our results demonstrate that a motivated adversary can forge triggers that are not only drastically more effective than current handcrafted ones but also exhibit inherent flexibility in shape, properties, and functionality. In this direction, we show that an attacker can design and generate Neural Execs capable of persisting through multi-stage preprocessing pipelines, such as in the case of Retrieval-Augmented Generation (RAG)-based applications. More critically, our findings show that attackers can produce triggers that deviate markedly in form and shape from any known attack, sidestepping existing blacklist-based detection and sanitation approaches.

arxiv情報

著者 Dario Pasquini,Martin Strohmeier,Carmela Troncoso
発行日 2024-03-06 15:40:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク