要約
AIエージェントがますます自律的で能力が高まるにつれて、迅速な注入などの脆弱性に対するセキュリティが重要になります。
このペーパーでは、AIエージェントにセキュリティ保証を提供するために、情報フロー制御(IFC)の使用を調査します。
エージェントプランナーのセキュリティと表現力について推論するための正式なモデルを提示します。
このモデルを使用して、ダイナミックな汚染トラッキングによって強制力のあるプロパティのクラスを特徴付け、プランナー設計のセキュリティとユーティリティトレードオフを評価するためのタスクの分類法を構築します。
この探索に通知されて、Fidesを紹介します。Fidesは、機密性と整合性ラベルを追跡し、セキュリティポリシーを決定的に実施し、選択的に隠すための新しいプリミティブを導入するプランナーです。
Agentdojoでの評価は、このアプローチが安全に達成できるタスクの範囲を広げることを示しています。
論文で紹介されたコンセプトを読者に散歩するためのチュートリアルは、https://github.com/microsoft/fidesにあります
要約(オリジナル)
As AI agents become increasingly autonomous and capable, ensuring their security against vulnerabilities such as prompt injection becomes critical. This paper explores the use of information-flow control (IFC) to provide security guarantees for AI agents. We present a formal model to reason about the security and expressiveness of agent planners. Using this model, we characterize the class of properties enforceable by dynamic taint-tracking and construct a taxonomy of tasks to evaluate security and utility trade-offs of planner designs. Informed by this exploration, we present Fides, a planner that tracks confidentiality and integrity labels, deterministically enforces security policies, and introduces novel primitives for selectively hiding information. Its evaluation in AgentDojo demonstrates that this approach broadens the range of tasks that can be securely accomplished. A tutorial to walk readers through the the concepts introduced in the paper can be found at https://github.com/microsoft/fides
arxiv情報
著者 | Manuel Costa,Boris Köpf,Aashish Kolluri,Andrew Paverd,Mark Russinovich,Ahmed Salem,Shruti Tople,Lukas Wutschitz,Santiago Zanella-Béguelin |
発行日 | 2025-05-29 16:50:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google