Prompt Injection Detection and Mitigation via AI Multi-Agent NLP Frameworks

要約

迅速な注入は、意図しない出力を誘導することにより、生成AIシステムにとって重要な課題となります。
層状検出および施行メカニズムを通じて、迅速な注入脆弱性に対処するために特別に設計されたマルチエージェントNLPフレームワークを導入します。
このフレームワークは、応答を生成し、出力を消毒し、ポリシーコンプライアンスを実施するための専門的なエージェントを組み立てます。
500の設計された注入プロンプトの評価は、注入の成功と政策違反の著しい減少を示しています。
注入成功率(ISR)、ポリシーオーバーライド周波数(PO​​F)、迅速な消毒速度(PSR)、およびコンプライアンス一貫性スコア(CCS)を含む新しい指標が、複合総噴射脆弱性スコア(TIVS)を導出するために提案されています。
このシステムは、構造化されたJSONメッセージを介してエージェント間通信のためのOvon(Open Voice Network)フレームワークを利用し、幻覚緩和から以前に確立されたマルチエージェントアーキテクチャを拡張して、迅速な注入のユニークな課題に対処します。

要約(オリジナル)

Prompt injection constitutes a significant challenge for generative AI systems by inducing unintended outputs. We introduce a multi-agent NLP framework specifically designed to address prompt injection vulnerabilities through layered detection and enforcement mechanisms. The framework orchestrates specialized agents for generating responses, sanitizing outputs, and enforcing policy compliance. Evaluation on 500 engineered injection prompts demonstrates a marked reduction in injection success and policy breaches. Novel metrics, including Injection Success Rate (ISR), Policy Override Frequency (POF), Prompt Sanitization Rate (PSR), and Compliance Consistency Score (CCS), are proposed to derive a composite Total Injection Vulnerability Score (TIVS). The system utilizes the OVON (Open Voice Network) framework for inter-agent communication via structured JSON messages, extending a previously established multi-agent architecture from hallucination mitigation to address the unique challenges of prompt injection.

arxiv情報

著者 Diego Gosmar,Deborah A. Dahl,Dario Gosmar
発行日 2025-03-14 15:41:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA パーマリンク