Safeguarding Mobile GUI Agent via Logic-based Action Verification

要約

大規模な基礎モデル(LFM)は、特にGUIを解釈できるモバイルグラフィカルユーザーインターフェイス(GUI)エージェントの台頭により、人間コンピューターの相互作用の新しい可能性のロックを解除しました。
これらのエージェントは、ユーザーが単純な自然言語の指示を通じて複雑なモバイルタスクを自動化できるようにすることにより、モバイルコンピューティングに革命をもたらすことを約束します。
ただし、LFMの固有の確率的性質は、モバイルタスクの曖昧さとコンテキスト依存性と相まって、LFMベースの自動化を信頼性が低く、エラーを発生しやすくなります。
この重要な課題に対処するために、Verisafeエージェント(VSA)を紹介します。これは、モバイルGUIエージェントの論理的に根拠のある保護手段として機能する正式な検証システムです。
VSAは、アクションを実施する前に、エージェントのアクションがユーザーの意図と厳密に整合することを決定論的に保証するように設計されています。
その中心で、VSAは、ドメイン固有の言語(DSL)で表現された自然言語ユーザーの指示を正式に検証可能な仕様に変換する新しい自己形態化技術を導入します。
これにより、ランタイム、ルールベースの検証が可能になり、VSAは、是正フィードバックを提供するか危険な動作を停止することにより、アクションを実行する誤ったアクションを検出および防止できます。
私たちの知る限り、VSAは正式な検証の厳格さをGUIエージェントにもたらす最初の試みです。
LFM駆動型の自動化と正式なソフトウェア検証の間のギャップを効果的に埋める。
オフシェルフLLMサービス(GPT-4O)を使用してVSAを実装し、18の広く使用されているモバイルアプリで300のユーザー命令でそのパフォーマンスを評価します。
結果は、VSAがエージェントアクションの検証に94.3%-98.33%の精度を達成し、既存のLLMベースの検証方法よりも20.4%-25.6%の大幅な改善を表し、その結果、GUIエージェントのタスク完了率を90%-130%増加させることを示しています。

要約(オリジナル)

Large Foundation Models (LFMs) have unlocked new possibilities in human-computer interaction, particularly with the rise of mobile Graphical User Interface (GUI) Agents capable of interpreting GUIs. These agents promise to revolutionize mobile computing by allowing users to automate complex mobile tasks through simple natural language instructions. However, the inherent probabilistic nature of LFMs, coupled with the ambiguity and context-dependence of mobile tasks, makes LFM-based automation unreliable and prone to errors. To address this critical challenge, we introduce VeriSafe Agent (VSA): a formal verification system that serves as a logically grounded safeguard for Mobile GUI Agents. VSA is designed to deterministically ensure that an agent’s actions strictly align with user intent before conducting an action. At its core, VSA introduces a novel autoformalization technique that translates natural language user instructions into a formally verifiable specification, expressed in our domain-specific language (DSL). This enables runtime, rule-based verification, allowing VSA to detect and prevent erroneous actions executing an action, either by providing corrective feedback or halting unsafe behavior. To the best of our knowledge, VSA is the first attempt to bring the rigor of formal verification to GUI agent. effectively bridging the gap between LFM-driven automation and formal software verification. We implement VSA using off-the-shelf LLM services (GPT-4o) and evaluate its performance on 300 user instructions across 18 widely used mobile apps. The results demonstrate that VSA achieves 94.3%-98.33% accuracy in verifying agent actions, representing a significant 20.4%-25.6% improvement over existing LLM-based verification methods, and consequently increases the GUI agent’s task completion rate by 90%-130%.

arxiv情報

著者 Jungjae Lee,Dongjae Lee,Chihun Choi,Youngmin Im,Jaeyoung Wi,Kihong Heo,Sangeun Oh,Sunjae Lee,Insik Shin
発行日 2025-03-24 09:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク