Not what you’ve signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection

要約

タイトル:間接プロンプトインジェクションによる実世界のLLM-統合アプリケーションの攻撃

要約:
– LLM(Large Language Models)は、さまざまなアプリケーションに統合されることが増えています。
– 最近のLLMの機能は自然言語プロンプトによって柔軟に調整されるため、ターゲット型の不正なプロンプトによって攻撃される可能性があります。
– これまでは、ユーザーが直接LLMをプロンプトしていると考えられていましたが、LLM-統合アプリケーションでは、データと指示の境界線があいまいになります。
– このため、新しい攻撃手法である「間接プロンプトインジェクション」を使用することで、直接的なインターフェースなしに、データからプロンプトを抽出して攻撃することができます。
– 本論文では、この攻撃によってデータを盗み出したり、情報を汚染したりするなど、コンピューターセキュリティの観点から影響と脆弱性を体系的に調査する包括的なタキソノミーを導出しました。
– ベンチマークとして、BingのGPT-4を利用したチャットやコード自動補完エンジンなどの実世界のシステムや、GPT-4を利用した合成アプリケーションを用いた攻撃の実証実験を行いました。
– この攻撃によって、プロンプトを抽出して任意のコードを実行したり、アプリケーションの機能を操作したり、他のAPIの呼び出し方法やタイミングを制御したりすることが可能であることを示しました。
– LLMの統合と依存度が高まっているにもかかわらず、これらの新興脅威に対する有効な緩和策はまだ不足しています。
– この論文では、これらの脆弱性についての認識を高め、その影響についての重要な洞察を提供することで、これらの強力なモデルの安全で責任ある展開や、ユーザーやシステムを潜在的な攻撃から保護する堅牢な防御の開発を促進することを目的としています。

要約(オリジナル)

Large Language Models (LLMs) are increasingly being integrated into various applications. The functionalities of recent LLMs can be flexibly modulated via natural language prompts. This renders them susceptible to targeted adversarial prompting, e.g., Prompt Injection (PI) attacks enable attackers to override original instructions and employed controls. So far, it was assumed that the user is directly prompting the LLM. But, what if it is not the user prompting? We argue that LLM-Integrated Applications blur the line between data and instructions. We reveal new attack vectors, using Indirect Prompt Injection, that enable adversaries to remotely (without a direct interface) exploit LLM-integrated applications by strategically injecting prompts into data likely to be retrieved. We derive a comprehensive taxonomy from a computer security perspective to systematically investigate impacts and vulnerabilities, including data theft, worming, information ecosystem contamination, and other novel security risks. We demonstrate our attacks’ practical viability against both real-world systems, such as Bing’s GPT-4 powered Chat and code-completion engines, and synthetic applications built on GPT-4. We show how processing retrieved prompts can act as arbitrary code execution, manipulate the application’s functionality, and control how and if other APIs are called. Despite the increasing integration and reliance on LLMs, effective mitigations of these emerging threats are currently lacking. By raising awareness of these vulnerabilities and providing key insights into their implications, we aim to promote the safe and responsible deployment of these powerful models and the development of robust defenses that protect users and systems from potential attacks.

arxiv情報

著者 Kai Greshake,Sahar Abdelnabi,Shailesh Mishra,Christoph Endres,Thorsten Holz,Mario Fritz
発行日 2023-05-05 14:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CY パーマリンク