要約
LLM統合アプリシステムは、ユーザークエリに答えるためにインターリーブ計画と実行フェーズを使用してシステムLLMによって呼び出されるサードパーティアプリを使用して、大規模な言語モデル(LLMS)のユーティリティを拡張します。
これらのシステムは、悪意のあるアプリが、実行中に計画や実行、可用性の内訳、またはプライバシーの妥協の完全性違反を引き起こす可能性がある新しい攻撃ベクトルを導入します。
この作業では、LLM統合アプリでの実行の整合性と実行の整合性と可用性に影響を与える新しい攻撃を特定し、悪意のあるアプリからの攻撃を緩和するために設計された最近のソリューションであるIsolategPTに対してそれらを実証します。
システム計画と実行のセキュリティ保証を提供するLLM統合アプリシステムの新しい安全なアーキテクチャであるAbstract Concrete-Execute(ACE)を提案します。
具体的には、ACEは、信頼できる情報のみを使用して抽象実行計画を最初に作成し、抽象計画をインストールされたシステムアプリを使用して具体的な計画にマッピングすることにより、計画計画を2つのフェーズに分離します。
システムによって生成された計画が、構造化された計画出力の静的分析を介してユーザー指定の安全な情報の制約を満たすことを確認します。
実行中、ACEはアプリ間のデータと能力の障壁を強制し、信頼できる抽象計画に従って実行が実施されることを保証します。
私たちのシステムは、間接的な迅速な噴射攻撃に直面した制御フローの完全性のための標準的なベンチマーク、および新しく導入された攻撃からの標準的なベンチマークである、私たちのシステムが注射科のベンチマークからの攻撃に対して安全であることを実験的に示します。
私たちのアーキテクチャは、さまざまなレベルの信頼性を持つシステム施設を含むLLMベースのシステムを硬化させるための重要な進歩を表しています。
要約(オリジナル)
LLM-integrated app systems extend the utility of Large Language Models (LLMs) with third-party apps that are invoked by a system LLM using interleaved planning and execution phases to answer user queries. These systems introduce new attack vectors where malicious apps can cause integrity violation of planning or execution, availability breakdown, or privacy compromise during execution. In this work, we identify new attacks impacting the integrity of planning, as well as the integrity and availability of execution in LLM-integrated apps, and demonstrate them against IsolateGPT, a recent solution designed to mitigate attacks from malicious apps. We propose Abstract-Concrete-Execute (ACE), a new secure architecture for LLM-integrated app systems that provides security guarantees for system planning and execution. Specifically, ACE decouples planning into two phases by first creating an abstract execution plan using only trusted information, and then mapping the abstract plan to a concrete plan using installed system apps. We verify that the plans generated by our system satisfy user-specified secure information flow constraints via static analysis on the structured plan output. During execution, ACE enforces data and capability barriers between apps, and ensures that the execution is conducted according to the trusted abstract plan. We show experimentally that our system is secure against attacks from the INJECAGENT benchmark, a standard benchmark for control flow integrity in the face of indirect prompt injection attacks, and our newly introduced attacks. Our architecture represents a significant advancement towards hardening LLM-based systems containing system facilities of varying levels of trustworthiness.
arxiv情報
著者 | Evan Li,Tushin Mallick,Evan Rose,William Robertson,Alina Oprea,Cristina Nita-Rotaru |
発行日 | 2025-04-29 17:55:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google