要約
グラフィカルユーザーインターフェイス(GUI)自動化エージェントは、強力なツールとして浮上しており、人間がスマートデバイスでますます複雑なタスクを達成できるようにしています。
ただし、ユーザーは、タスクを伝えるときに重要な情報を不注意に省略することがよくあります。これにより、ユーザーの介入をサポートしない現在のエージェントパラダイムのエージェントパフォーマンスが妨げられます。
この問題に対処するために、GUIエージェント内にインタラクティブな情報完了機能を組み込んだ$ \ textBf {自己修正GUIナビゲーション} $タスクを紹介します。
この新しい機能をベンチマークするために、$ \ textbf {navi-plus} $ datasetを$ \ textbf {dual-stream tramectory evaluation} $メソッドとともに、$ \ textbf {navi-plus} $ datasetを開発しました。
私たちの結果は、GUIのフォローアップの質問をする能力を備えたエージェントが、曖昧なユーザータスクに直面したときにパフォーマンスを完全に回復できることを示しています。
要約(オリジナル)
Graphical user interfaces (GUI) automation agents are emerging as powerful tools, enabling humans to accomplish increasingly complex tasks on smart devices. However, users often inadvertently omit key information when conveying tasks, which hinders agent performance in the current agent paradigm that does not support immediate user intervention. To address this issue, we introduce a $\textbf{Self-Correction GUI Navigation}$ task that incorporates interactive information completion capabilities within GUI agents. We developed the $\textbf{Navi-plus}$ dataset with GUI follow-up question-answer pairs, alongside a $\textbf{Dual-Stream Trajectory Evaluation}$ method to benchmark this new capability. Our results show that agents equipped with the ability to ask GUI follow-up questions can fully recover their performance when faced with ambiguous user tasks.
arxiv情報
著者 | Ziming Cheng,Zhiyuan Huang,Junting Pan,Zhaohui Hou,Mingjie Zhan |
発行日 | 2025-03-31 14:56:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google