Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis

要約

Web AIエージェントの最近の進歩により、複雑なWebナビゲーションタスクに対処する際の顕著な能力が実証されています。
ただし、新たな研究は、これらのエージェントが同じ安全整合モデルに基づいて構築されているにもかかわらず、スタンドアロンの大手言語モデル(LLM)と比較してより大きな脆弱性を示すことを示しています。
この矛盾は、スタンドアロンLLMSと比較してWeb AIエージェントの柔軟性が高いことを考えると特に懸念されます。
これらの懸念に対処する足場を構築するために、この研究では、Web AIエージェントの脆弱性の増加に寄与する根本的な要因を調査します。
特に、この格差は、Web AIエージェントとスタンドアロンLLMの多面的な違い、および複雑なシグナル – 成功率などの単純な評価メトリックがキャプチャできないことが多いことに由来しています。
これらの課題に取り組むために、コンポーネントレベルの分析と、より詳細で体系的な評価フレームワークを提案します。
このきめの細かい調査を通じて、Web AIエージェントの脆弱性を増幅する3つの重要な要因を特定します。
(1)ユーザーの目標をシステムプロンプト、(2)マルチステップアクション生成、および(3)観測能力に埋め込む。
私たちの調査結果は、AIエージェントの設計におけるセキュリティと堅牢性を高め、ターゲットを絞った防衛戦略のための実用的な洞察を提供するための差し迫った必要性を強調しています。

要約(オリジナル)

Recent advancements in Web AI agents have demonstrated remarkable capabilities in addressing complex web navigation tasks. However, emerging research shows that these agents exhibit greater vulnerability compared to standalone Large Language Models (LLMs), despite both being built upon the same safety-aligned models. This discrepancy is particularly concerning given the greater flexibility of Web AI Agent compared to standalone LLMs, which may expose them to a wider range of adversarial user inputs. To build a scaffold that addresses these concerns, this study investigates the underlying factors that contribute to the increased vulnerability of Web AI agents. Notably, this disparity stems from the multifaceted differences between Web AI agents and standalone LLMs, as well as the complex signals – nuances that simple evaluation metrics, such as success rate, often fail to capture. To tackle these challenges, we propose a component-level analysis and a more granular, systematic evaluation framework. Through this fine-grained investigation, we identify three critical factors that amplify the vulnerability of Web AI agents; (1) embedding user goals into the system prompt, (2) multi-step action generation, and (3) observational capabilities. Our findings highlights the pressing need to enhance security and robustness in AI agent design and provide actionable insights for targeted defense strategies.

arxiv情報

著者 Jeffrey Yang Fan Chiang,Seungjae Lee,Jia-Bin Huang,Furong Huang,Yizheng Chen
発行日 2025-02-27 18:56:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク