要約
現在、大規模言語モデル (LLM) の機能が劇的に進歩しています。
それらはすでに実際に採用されており、統合開発環境 (IDE) や検索エンジンを含む多くのシステムに統合されています。
現在の LLM の機能は、自然言語プロンプトを介して調整できますが、正確な内部機能は暗黙的で評価できないままです。
目に見えないタスクにも適応できるようにするこの特性は、標的を絞った敵対的プロンプトの影響を受けやすくする可能性もあります。
最近、プロンプト インジェクション (PI) 攻撃を使用して LLM の位置をずらす方法がいくつか導入されました。
このような攻撃では、敵対者は LLM に悪意のあるコンテンツを作成するように促したり、元の指示や採用されたフィルタリング スキームを無効にしたりすることができます。
最近の研究では、最先端の LLM は命令に従うため、これらの攻撃を緩和するのは難しいことが示されました。
これまでのところ、これらの攻撃は、敵対者が LLM を直接促していると想定していました。
この作業では、取得および API 呼び出し機能 (いわゆるアプリケーション統合 LLM) を使用して LLM を強化すると、まったく新しい一連の攻撃ベクトルが誘発されることを示します。
これらの LLM は、攻撃者によって事前に挿入および選択された悪意のあるプロンプトを含む、Web から取得された有害なコンテンツを処理する可能性があります。
攻撃者がそのような PI 攻撃を間接的に実行できることを示します。
この重要な洞察に基づいて、結果として生じるアプリケーション統合 LLM の脅威の状況を体系的に分析し、さまざまな新しい攻撃ベクトルについて説明します。
攻撃の実際の実行可能性を実証するために、提案された攻撃の特定のデモを合成アプリケーション内に実装しました。
要約すると、私たちの作業では、現在の軽減技術の緊急評価と、これらの脅威から LLM を防御するために新しい技術が必要かどうかの調査が必要です。
要約(オリジナル)
We are currently witnessing dramatic advances in the capabilities of Large Language Models (LLMs). They are already being adopted in practice and integrated into many systems, including integrated development environments (IDEs) and search engines. The functionalities of current LLMs can be modulated via natural language prompts, while their exact internal functionality remains implicit and unassessable. This property, which makes them adaptable to even unseen tasks, might also make them susceptible to targeted adversarial prompting. Recently, several ways to misalign LLMs using Prompt Injection (PI) attacks have been introduced. In such attacks, an adversary can prompt the LLM to produce malicious content or override the original instructions and the employed filtering schemes. Recent work showed that these attacks are hard to mitigate, as state-of-the-art LLMs are instruction-following. So far, these attacks assumed that the adversary is directly prompting the LLM. In this work, we show that augmenting LLMs with retrieval and API calling capabilities (so-called Application-Integrated LLMs) induces a whole new set of attack vectors. These LLMs might process poisoned content retrieved from the Web that contains malicious prompts pre-injected and selected by adversaries. We demonstrate that an attacker can indirectly perform such PI attacks. Based on this key insight, we systematically analyze the resulting threat landscape of Application-Integrated LLMs and discuss a variety of new attack vectors. To demonstrate the practical viability of our attacks, we implemented specific demonstrations of the proposed attacks within synthetic applications. In summary, our work calls for an urgent evaluation of current mitigation techniques and an investigation of whether new techniques are needed to defend LLMs against these threats.
arxiv情報
著者 | Kai Greshake,Sahar Abdelnabi,Shailesh Mishra,Christoph Endres,Thorsten Holz,Mario Fritz |
発行日 | 2023-02-23 17:14:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google