要約
ジェネラリスト型ウェブエージェントは、実際のウェブサイト上で様々なタスクを自律的にこなし、人間の生産性を大幅に向上させるという驚くべき可能性を示してきた。しかしながら、航空券の予約のようなウェブタスクは、通常、ユーザの個人情報に関与しており、ウェブエージェントが誤って危険なウェブサイトと相互作用した場合、潜在的なプライバシーリスクにさらされる可能性がある。本研究では、敵対的環境におけるジェネラリスト型ウェブエージェントのプライバシーリスクに関する初めての研究を実施することで、このギャップを埋める。まず、Webサイトへの攻撃に対する現実的な脅威モデルを提示し、ユーザの特定のPIIを盗む、またはユーザリクエスト全体を盗むという2つの敵対的ターゲットを考える。次に、Environmental Injection Attack (EIA)と呼ばれる新しい攻撃方法を提案する。EIAは、エージェントが動作する環境に適応するように設計された悪意のあるコンテンツを注入し、我々の研究は、ウェブ環境におけるプライバシーシナリオのために特別にEIAをインスタンス化する。我々は、Mind2Webの現実的なウェブサイト上の多様なPIIカテゴリを含む177のアクションステップを収集し、今日まで最も有能なジェネラリストウェブエージェントフレームワークの1つを使用して実験を実施した。その結果、EIAは特定のPIIを盗む際に最大70%のASRを達成し、完全なユーザリクエストに対しては16%のASRを達成することが実証された。さらに、ステルス性にアクセスし、防御システムのプロンプトを実験することで、EIAは検出および軽減が困難であることを示す。注目すべきは、ウェブページにうまく適応していない攻撃は、人間の検査によって検出することができ、セキュリティと自律性の間のトレードオフについての議論につながる。しかし、攻撃者の余分な努力はEIAをシームレスに適応させることができ、そのような監視は効果がない。従って、我々はさらに、人間の監視に依存しないウェブサイトの展開前と展開後の段階における防御について議論し、より高度な防御戦略を呼びかける。
要約(オリジナル)
Generalist web agents have demonstrated remarkable potential in autonomously completing a wide range of tasks on real websites, significantly boosting human productivity. However, web tasks, such as booking flights, usually involve users’ PII, which may be exposed to potential privacy risks if web agents accidentally interact with compromised websites, a scenario that remains largely unexplored in the literature. In this work, we narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a realistic threat model for attacks on the website, where we consider two adversarial targets: stealing users’ specific PII or the entire user request. Then, we propose a novel attack method, termed Environmental Injection Attack (EIA). EIA injects malicious content designed to adapt well to environments where the agents operate and our work instantiates EIA specifically for privacy scenarios in web environments. We collect 177 action steps that involve diverse PII categories on realistic websites from the Mind2Web, and conduct experiments using one of the most capable generalist web agent frameworks to date. The results demonstrate that EIA achieves up to 70% ASR in stealing specific PII and 16% ASR for full user request. Additionally, by accessing the stealthiness and experimenting with a defensive system prompt, we indicate that EIA is hard to detect and mitigate. Notably, attacks that are not well adapted for a webpage can be detected via human inspection, leading to our discussion about the trade-off between security and autonomy. However, extra attackers’ efforts can make EIA seamlessly adapted, rendering such supervision ineffective. Thus, we further discuss the defenses at the pre- and post-deployment stages of the websites without relying on human supervision and call for more advanced defense strategies.
arxiv情報
著者 | Zeyi Liao,Lingbo Mo,Chejian Xu,Mintong Kang,Jiawei Zhang,Chaowei Xiao,Yuan Tian,Bo Li,Huan Sun |
発行日 | 2024-10-03 16:30:43+00:00 |
arxivサイト | arxiv_id(pdf) |