ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation

要約

グラフィカル ユーザー インターフェイス (GUI) の自動化は、ユーザーの複雑なタスクを支援し、人間の生産性を向上させるという大きな可能性を秘めています。
大規模言語モデル (LLM) または LLM ベースの AI エージェントを活用した既存の作品は、Android および Web プラットフォームでタスクを自動化する機能を示しています。
ただし、これらのタスクは主に、単純なデバイスの使用とエンターテイメントの操作を目的としています。
このペーパーでは、ユーザーが要求したタスクに応じてモデルが Windows プラットフォーム上でマウスとキーボードを操作できるかどうかを評価するための新しいベンチマーク AssistGUI を紹介します。
After Effects や MS Word など、広く使用されている 9 つのソフトウェア アプリケーションから 100 のタスク セットを慎重に収集し、それぞれのタスクをより適切に評価するために必要なプロジェクト ファイルを添付しました。
さらに、我々は、LLM エージェントによって駆動される高度な GUI パーサーと、長時間の手続きタスクの処理に適した強化された推論メカニズムを組み込んだ、高度な Actor-Critic Embodied Agent フレームワークを提案します。
私たちの実験結果は、GUI パーサーと推論メカニズムがパフォーマンスにおいて既存の方法を上回っていることを明らかにしています。
それにもかかわらず、可能性は依然として大きく、最高のモデルでもベンチマークでの成功率は 46% にすぎません。
最後に、現在の手法の限界を徹底的に分析し、この分野における将来のブレークスルーの準備を整えます。

要約(オリジナル)

Graphical User Interface (GUI) automation holds significant promise for assisting users with complex tasks, thereby boosting human productivity. Existing works leveraging Large Language Model (LLM) or LLM-based AI agents have shown capabilities in automating tasks on Android and Web platforms. However, these tasks are primarily aimed at simple device usage and entertainment operations. This paper presents a novel benchmark, AssistGUI, to evaluate whether models are capable of manipulating the mouse and keyboard on the Windows platform in response to user-requested tasks. We carefully collected a set of 100 tasks from nine widely-used software applications, such as, After Effects and MS Word, each accompanied by the necessary project files for better evaluation. Moreover, we propose an advanced Actor-Critic Embodied Agent framework, which incorporates a sophisticated GUI parser driven by an LLM-agent and an enhanced reasoning mechanism adept at handling lengthy procedural tasks. Our experimental results reveal that our GUI Parser and Reasoning mechanism outshine existing methods in performance. Nevertheless, the potential remains substantial, with the best model attaining only a 46% success rate on our benchmark. We conclude with a thorough analysis of the current methods’ limitations, setting the stage for future breakthroughs in this domain.

arxiv情報

著者 Difei Gao,Lei Ji,Zechen Bai,Mingyu Ouyang,Peiran Li,Dongxing Mao,Qinchen Wu,Weichen Zhang,Peiyi Wang,Xiangwu Guo,Hengxu Wang,Luowei Zhou,Mike Zheng Shou
発行日 2024-01-01 14:26:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク