AdInject: Real-World Black-Box Attacks on Web Agents via Advertising Delivery

要約

Vision-Language Model(VLM)ベースのWebエージェントは、Webサイトとの人間のような相互作用をシミュレートすることにより、複雑なタスクを自動化するための重要なステップを表しています。
ただし、制御されていないWeb環境での展開は、重大なセキュリティの脆弱性をもたらします。
敵対的な環境注射攻撃に関する既存の研究は、直接的なHTML操作、ユーザー意図の知識、エージェントモデルパラメーターへのアクセスなど、非現実的な仮定にしばしば依存しており、実際の適用性を制限します。
この論文では、インターネット広告配信を活用して悪意のあるコンテンツをWebエージェントの環境に挿入する斬新で現実世界のブラックボックス攻撃方法であるAdinjectを提案します。
Adinjectは、ブラックボックスエージェント、静的な悪意のあるコンテンツの制約、およびユーザーの意図に関する特定の知識がないと仮定して、以前の作業よりもはるかに現実的な脅威モデルの下で動作します。
Adinjectには、誤解を招くエージェントを目的とした悪意のある広告コンテンツをクリックすることを目的とした悪意のある広告コンテンツを設計するための戦略と、ターゲットWebサイトのコンテキストから潜在的なユーザーの意図を広告コンテンツに統合して、エージェントのタスクに関連性または重要に見えるようにするためのVLMベースの広告コンテンツ最適化手法が含まれます。
実験的評価は、ほとんどのシナリオで60%を超え、特定のケースで100%に近づいている、攻撃の成功率の有効性、攻撃の成功率を示しています。
これは、一般的な広告配信が、Webエージェントに対する環境注入攻撃のための強力で現実世界のベクトルであることを強く示しています。
この作業は、現実世界の環境操作チャネルから生じるWebエージェントセキュリティの重大な脆弱性を強調し、そのような脅威に対する堅牢な防御メカニズムを開発する緊急の必要性を強調しています。
私たちのコードは、https://github.com/nicerwang/adinjectで入手できます。

要約(オリジナル)

Vision-Language Model (VLM) based Web Agents represent a significant step towards automating complex tasks by simulating human-like interaction with websites. However, their deployment in uncontrolled web environments introduces significant security vulnerabilities. Existing research on adversarial environmental injection attacks often relies on unrealistic assumptions, such as direct HTML manipulation, knowledge of user intent, or access to agent model parameters, limiting their practical applicability. In this paper, we propose AdInject, a novel and real-world black-box attack method that leverages the internet advertising delivery to inject malicious content into the Web Agent’s environment. AdInject operates under a significantly more realistic threat model than prior work, assuming a black-box agent, static malicious content constraints, and no specific knowledge of user intent. AdInject includes strategies for designing malicious ad content aimed at misleading agents into clicking, and a VLM-based ad content optimization technique that infers potential user intents from the target website’s context and integrates these intents into the ad content to make it appear more relevant or critical to the agent’s task, thus enhancing attack effectiveness. Experimental evaluations demonstrate the effectiveness of AdInject, attack success rates exceeding 60% in most scenarios and approaching 100% in certain cases. This strongly demonstrates that prevalent advertising delivery constitutes a potent and real-world vector for environment injection attacks against Web Agents. This work highlights a critical vulnerability in Web Agent security arising from real-world environment manipulation channels, underscoring the urgent need for developing robust defense mechanisms against such threats. Our code is available at https://github.com/NicerWang/AdInject.

arxiv情報

著者 Haowei Wang,Junjie Wang,Xiaojun Jia,Rupeng Zhang,Mingyang Li,Zhe Liu,Yang Liu,Qing Wang
発行日 2025-05-27 17:59:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク