要約
最近の大量のMLセキュリティ文献は、整合した大手言語モデル(LLMS)に対する攻撃に焦点を当てています。
これらの攻撃は、個人情報を抽出したり、モデルを強制して有害な出力を生成したりする可能性があります。
実際の展開では、LLMは多くの場合、メモリシステム、検索、Webアクセス、API通話など、より大きなエージェントパイプラインの一部です。
このような追加のコンポーネントは、これらのLLMを搭載したエージェントを孤立したLLMよりもはるかに攻撃しやすくする脆弱性を導入しますが、LLMエージェントのセキュリティに焦点を当てている作業は比較的少ない。
この論文では、LLMエージェントに固有のセキュリティとプライバシーの脆弱性を分析します。
最初に、脅威アクター、目的、エントリーポイント、攻撃者の観察性、攻撃戦略、およびエージェントパイプラインの固有の脆弱性によって分類される攻撃の分類法を提供します。
次に、人気のあるオープンソースと商業エージェントに対して一連の例示的な攻撃を実施し、それらの脆弱性の即時の実際的な意味を実証します。
特に、私たちの攻撃は実装するのが簡単であり、機械学習を理解する必要はありません。
要約(オリジナル)
A high volume of recent ML security literature focuses on attacks against aligned large language models (LLMs). These attacks may extract private information or coerce the model into producing harmful outputs. In real-world deployments, LLMs are often part of a larger agentic pipeline including memory systems, retrieval, web access, and API calling. Such additional components introduce vulnerabilities that make these LLM-powered agents much easier to attack than isolated LLMs, yet relatively little work focuses on the security of LLM agents. In this paper, we analyze security and privacy vulnerabilities that are unique to LLM agents. We first provide a taxonomy of attacks categorized by threat actors, objectives, entry points, attacker observability, attack strategies, and inherent vulnerabilities of agent pipelines. We then conduct a series of illustrative attacks on popular open-source and commercial agents, demonstrating the immediate practical implications of their vulnerabilities. Notably, our attacks are trivial to implement and require no understanding of machine learning.
arxiv情報
著者 | Ang Li,Yin Zhou,Vethavikashini Chithrra Raghuram,Tom Goldstein,Micah Goldblum |
発行日 | 2025-02-12 17:19:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google