Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation

要約

大規模言語モデル (LLM) を活用した AI エージェントは、シームレスで自然なコンテキスト認識型のコミュニケーションを可能にすることで、人間とコンピューターの対話を変革しました。
これらの進歩は計り知れない有用性をもたらしますが、同時に偏見、公平性、幻覚、プライバシー侵害、透明性の欠如などの固有の安全リスクを引き継ぎ、増幅させます。
このペーパーでは、AI エージェント内の LLM コアを標的とした敵対的攻撃という重大な脆弱性を調査します。
具体的には、\textit{ドキュメントを無視する} などの一見単純な敵対的なプレフィックスによって、LLM がコンテキスト上の保護手段をバイパスして、危険な出力や意図しない出力を生成する可能性があるという仮説をテストします。
実験を通じて、高い攻撃成功率 (ASR) を実証し、既存の LLM 防御の脆弱性を明らかにしました。
これらの調査結果は、LLM レベルおよびより広範なエージェントベースのアーキテクチャ内の脆弱性を軽減するために調整された、堅牢な多層セキュリティ対策の緊急の必要性を強調しています。

要約(オリジナル)

AI agents, powered by large language models (LLMs), have transformed human-computer interactions by enabling seamless, natural, and context-aware communication. While these advancements offer immense utility, they also inherit and amplify inherent safety risks such as bias, fairness, hallucinations, privacy breaches, and a lack of transparency. This paper investigates a critical vulnerability: adversarial attacks targeting the LLM core within AI agents. Specifically, we test the hypothesis that a deceptively simple adversarial prefix, such as \textit{Ignore the document}, can compel LLMs to produce dangerous or unintended outputs by bypassing their contextual safeguards. Through experimentation, we demonstrate a high attack success rate (ASR), revealing the fragility of existing LLM defenses. These findings emphasize the urgent need for robust, multi-layered security measures tailored to mitigate vulnerabilities at the LLM level and within broader agent-based architectures.

arxiv情報

著者 Xuying Li,Zhuo Li,Yuji Kosuga,Yasuhiro Yoshida,Victor Bian
発行日 2024-12-05 18:38:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク