要約
ジェネラリスト Web エージェントは急速に進化し、顕著な可能性を示しています。
しかし、これらには前例のない安全上のリスクがあり、これまでのところほとんど調査されていません。
この研究では、敵対的な環境におけるジェネラリスト Web エージェントのプライバシー リスクに関する最初の研究を実施することで、このギャップを狭めることを目指しています。
まず、敵対的なターゲット、制約、攻撃シナリオを説明する脅威モデルを示します。
特に、ユーザーの特定の個人識別情報 (PII) を盗むこと、またはユーザーのリクエスト全体を盗むことの 2 種類の敵対的ターゲットを考慮します。
これらの目的を達成するために、私たちは環境注入攻撃 (EIA) と呼ばれる新しい攻撃方法を提案します。
この攻撃は、エージェントが動作するさまざまな環境にうまく適応するように設計された悪意のあるコンテンツを挿入し、エージェントに意図しないアクションを実行させます。
この作業では、プライバシー シナリオに特化した EIA をインスタンス化します。
これは、Web エージェントを誤解させて個人情報を漏洩させる説得的な指示とともに悪意のある Web 要素を挿入し、CSS と JavaScript の機能をさらに利用してステルス性を維持することができます。
私たちは、Mind2Web データセットから現実的な Web サイト上のさまざまな PII カテゴリを含む 177 のアクション ステップを収集し、これまでで最も有能なジェネラリスト Web エージェント フレームワークの 1 つである SeeAct を使用して広範な実験を実施します。
結果は、EIA がユーザー固有の PII を盗む際に最大 70% の ASR を達成することを示しています。
ユーザーリクエストを完全に盗むことはより困難ですが、EIA の緩和バージョンでも 16% の ASR を達成できます。
このような憂慮すべき結果にもかかわらず、攻撃は人間による注意深く検査することで依然として検出可能であることに注意することが重要であり、高度な自律性とセキュリティの間のトレードオフが浮き彫りになっています。
これは、人間のさまざまなレベルの監視下での EIA の有効性と、ジェネラリスト Web エージェントの防御への影響に関する詳細な議論につながります。
要約(オリジナル)
Generalist web agents have evolved rapidly and demonstrated remarkable potential. However, there are unprecedented safety risks associated with these them, which are nearly unexplored so far. In this work, we aim to narrow this gap by conducting the first study on the privacy risks of generalist web agents in adversarial environments. First, we present a threat model that discusses the adversarial targets, constraints, and attack scenarios. Particularly, we consider two types of adversarial targets: stealing users’ specific personally identifiable information (PII) or stealing the entire user request. To achieve these objectives, we propose a novel attack method, termed Environmental Injection Attack (EIA). This attack injects malicious content designed to adapt well to different environments where the agents operate, causing them to perform unintended actions. This work instantiates EIA specifically for the privacy scenario. It inserts malicious web elements alongside persuasive instructions that mislead web agents into leaking private information, and can further leverage CSS and JavaScript features to remain stealthy. We collect 177 actions steps that involve diverse PII categories on realistic websites from the Mind2Web dataset, and conduct extensive experiments using one of the most capable generalist web agent frameworks to date, SeeAct. The results demonstrate that EIA achieves up to 70% ASR in stealing users’ specific PII. Stealing full user requests is more challenging, but a relaxed version of EIA can still achieve 16% ASR. Despite these concerning results, it is important to note that the attack can still be detectable through careful human inspection, highlighting a trade-off between high autonomy and security. This leads to our detailed discussion on the efficacy of EIA under different levels of human supervision as well as implications on defenses for generalist web agents.
arxiv情報
著者 | Zeyi Liao,Lingbo Mo,Chejian Xu,Mintong Kang,Jiawei Zhang,Chaowei Xiao,Yuan Tian,Bo Li,Huan Sun |
発行日 | 2024-09-17 15:49:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google