LlamaFirewall: An open source guardrail system for building secure AI agents

要約

大規模な言語モデル(LLMS)は、シンプルなチャットボットから、本番コードの編集、ワークフローの調整、ウェブページや電子メールなどの信頼できない入力に基づいてより高い賭けのアクションを実行できるような複雑なタスクを実行できる自律エージェントに進化しました。
これらの機能は、モデルの微調整やチャットボット中心のガードレールなどの既存のセキュリティ対策が完全には対応していないという新しいセキュリティリスクを導入します。
これらのリスクを軽減するためのより高い利害関係と決定論的解決策がないことを考えると、リアルタイムのガードレールモニターが防御の最終層として機能し、システムレベル、ユースケース固有の安全ポリシーの定義と執行をサポートするための重要な必要性があります。
AIエージェントに関連するセキュリティリスクに対する防御の最終層として機能するように設計されたオープンソースセキュリティに焦点を当てたガードレールフレームワークであるLlamafirewallを紹介します。
私たちのフレームワークは、3つの強力なガードレールを介して、迅速なインジェクション、エージェントの不整合、不安定なコードリスクなどのリスクを軽減します。Artのパフォーマンスを明確に示す普遍的な脱獄検出器であるPromptGuard 2。
エージェントアライメントチェックは、迅速な注入と目標の不整合の推論を検査する考え方の監査人です。
また、エージェントをコーディングすることにより、不安定または危険なコードの生成を防ぐことを目的とした、高速かつ拡張可能なオンライン静的分析エンジンであるCodeshield。
さらに、正規表現またはLLMプロンプトを書くことができる開発者がエージェントのセキュリティガードレールをすばやく更新できるようにする、使いやすいカスタマイズ可能なスキャナーが含まれています。

要約(オリジナル)

Large language models (LLMs) have evolved from simple chatbots into autonomous agents capable of performing complex tasks such as editing production code, orchestrating workflows, and taking higher-stakes actions based on untrusted inputs like webpages and emails. These capabilities introduce new security risks that existing security measures, such as model fine-tuning or chatbot-focused guardrails, do not fully address. Given the higher stakes and the absence of deterministic solutions to mitigate these risks, there is a critical need for a real-time guardrail monitor to serve as a final layer of defense, and support system level, use case specific safety policy definition and enforcement. We introduce LlamaFirewall, an open-source security focused guardrail framework designed to serve as a final layer of defense against security risks associated with AI Agents. Our framework mitigates risks such as prompt injection, agent misalignment, and insecure code risks through three powerful guardrails: PromptGuard 2, a universal jailbreak detector that demonstrates clear state of the art performance; Agent Alignment Checks, a chain-of-thought auditor that inspects agent reasoning for prompt injection and goal misalignment, which, while still experimental, shows stronger efficacy at preventing indirect injections in general scenarios than previously proposed approaches; and CodeShield, an online static analysis engine that is both fast and extensible, aimed at preventing the generation of insecure or dangerous code by coding agents. Additionally, we include easy-to-use customizable scanners that make it possible for any developer who can write a regular expression or an LLM prompt to quickly update an agent’s security guardrails.

arxiv情報

著者 Sahana Chennabasappa,Cyrus Nikolaidis,Daniel Song,David Molnar,Stephanie Ding,Shengye Wan,Spencer Whitman,Lauren Deason,Nicholas Doucette,Abraham Montilla,Alekhya Gampa,Beto de Paola,Dominik Gabi,James Crnkovich,Jean-Christophe Testud,Kat He,Rashnil Chaturvedi,Wu Zhou,Joshua Saxe
発行日 2025-05-06 14:34:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク