要約
大規模な言語モデル(LLM)駆動GUIエージェントは、高レベルの指示に従ってユーザーに代わってタスクを実行する専門の自律システムです。
これは、関連するアプリのグラフィカルユーザーインターフェイス(GUI)を知覚および解釈することにより、多くの場合視覚的に、必要なアクションのシーケンスを推測し、クリック、タイピング、タッピングなどのアクションを実行することによりGUIと対話することで行います。
フォームの充填や予約サービスなどの現実世界のタスクを完了するには、GUIエージェントは多くの場合、機密のユーザーデータを処理して行動する必要があります。
ただし、この自律性は、新しいプライバシーとセキュリティのリスクをもたらします。
敵は、エージェントの動作を変化させるか、個人情報の意図しない開示を誘導する悪意のあるコンテンツをGUIに注入できます。
これらの攻撃は、多くの場合、エージェントと人間のユーザーの視覚的顕著性、またはタスクオートメーションにおけるコンテキスト完全性の違反を検出するエージェントの限られた能力との間の矛盾を活用します。
この論文では、6種類のこのような攻撃を特徴づけ、6人の最先端のGUIエージェント、234人の敵対的なウェブページ、39人の人間の参加者を使用してこれらの攻撃をテストするための実験的研究を実施しました。
私たちの調査結果は、GUIエージェントが、特に文脈に組み込まれた脅威に対して非常に脆弱であることを示唆しています。
さらに、人間のユーザーはこれらの攻撃の多くを受けやすく、単純な人間の監視が故障を確実に防ぐことができない可能性があることを示しています。
この不整合は、プライバシーアウェアエージェント設計の必要性を強調しています。
より安全で信頼性の高いGUIエージェントの開発を知らせるための実用的な防衛戦略を提案します。
要約(オリジナル)
A Large Language Model (LLM) powered GUI agent is a specialized autonomous system that performs tasks on the user’s behalf according to high-level instructions. It does so by perceiving and interpreting the graphical user interfaces (GUIs) of relevant apps, often visually, inferring necessary sequences of actions, and then interacting with GUIs by executing the actions such as clicking, typing, and tapping. To complete real-world tasks, such as filling forms or booking services, GUI agents often need to process and act on sensitive user data. However, this autonomy introduces new privacy and security risks. Adversaries can inject malicious content into the GUIs that alters agent behaviors or induces unintended disclosures of private information. These attacks often exploit the discrepancy between visual saliency for agents and human users, or the agent’s limited ability to detect violations of contextual integrity in task automation. In this paper, we characterized six types of such attacks, and conducted an experimental study to test these attacks with six state-of-the-art GUI agents, 234 adversarial webpages, and 39 human participants. Our findings suggest that GUI agents are highly vulnerable, particularly to contextually embedded threats. Moreover, human users are also susceptible to many of these attacks, indicating that simple human oversight may not reliably prevent failures. This misalignment highlights the need for privacy-aware agent design. We propose practical defense strategies to inform the development of safer and more reliable GUI agents.
arxiv情報
著者 | Chaoran Chen,Zhiping Zhang,Bingcan Guo,Shang Ma,Ibrahim Khalilov,Simret A Gebreegziabher,Yanfang Ye,Ziang Xiao,Yaxing Yao,Tianshi Li,Toby Jia-Jun Li |
発行日 | 2025-04-15 15:21:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google