要約
ラージ・ランゲージ・モデル(LLM)は、言語理解や言語生成に優れていることで知られ、LLMを取り巻くアプリケーションの活発なエコシステムを刺激している。しかし、LLMの様々なサービスへの広範な同化は、重大なセキュリティリスクをもたらす。本研究では、実際のLLM統合アプリケーションに対するプロンプト・インジェクション攻撃の複雑さとその意味を解明する。まず、10個の商用アプリケーションについて探索的な分析を行い、現在の攻撃戦略が実際にどのような制約を受けているかを明らかにする。これらの制約に促される形で、伝統的なWebインジェクション攻撃から着想を得た、新しいブラックボックス型プロンプト・インジェクション攻撃手法であるHouYiを定式化する。HouYiは、3つの重要な要素、すなわち、シームレスに組み込まれた事前構成プロンプト、コンテキスト分割を誘導するインジェクションプロンプト、攻撃目的を達成するために設計された悪意のあるペイロードに区分されます。HouYiを活用することで、無制限な任意のLLMの使用や単純なアプリケーションプロンプトの窃取など、これまで知られていなかった深刻な攻撃結果を明らかにする。HouYiを36の実際のLLM統合アプリケーションに展開し、プロンプト・インジェクションの影響を受けやすい31のアプリケーションを発見しました。数百万人のユーザーに影響を与える可能性のあるNotionを含む、10社のベンダーが私たちの発見を検証しました。私たちの調査は、プロンプト・インジェクション攻撃の可能なリスクと、それを軽減するための可能な戦術の両方を明らかにするものです。
要約(オリジナル)
Large Language Models (LLMs), renowned for their superior proficiency in language comprehension and generation, stimulate a vibrant ecosystem of applications around them. However, their extensive assimilation into various services introduces significant security risks. This study deconstructs the complexities and implications of prompt injection attacks on actual LLM-integrated applications. Initially, we conduct an exploratory analysis on ten commercial applications, highlighting the constraints of current attack strategies in practice. Prompted by these limitations, we subsequently formulate HouYi, a novel black-box prompt injection attack technique, which draws inspiration from traditional web injection attacks. HouYi is compartmentalized into three crucial elements: a seamlessly-incorporated pre-constructed prompt, an injection prompt inducing context partition, and a malicious payload designed to fulfill the attack objectives. Leveraging HouYi, we unveil previously unknown and severe attack outcomes, such as unrestricted arbitrary LLM usage and uncomplicated application prompt theft. We deploy HouYi on 36 actual LLM-integrated applications and discern 31 applications susceptible to prompt injection. 10 vendors have validated our discoveries, including Notion, which has the potential to impact millions of users. Our investigation illuminates both the possible risks of prompt injection attacks and the possible tactics for mitigation.
arxiv情報
著者 | Yi Liu,Gelei Deng,Yuekang Li,Kailong Wang,Zihao Wang,Xiaofeng Wang,Tianwei Zhang,Yepang Liu,Haoyu Wang,Yan Zheng,Yang Liu |
発行日 | 2024-03-02 09:12:23+00:00 |
arxivサイト | arxiv_id(pdf) |