UFO: A UI-Focused Agent for Windows OS Interaction

要約

GPT-Visionの機能を活用し、Windows OS上のアプリケーションに合わせたユーザ要求を満たす革新的なUI-FocusedエージェントであるUFOを紹介する。UFOはデュアルエージェントフレームワークを採用し、Windowsアプリケーションのグラフィカルユーザインタフェース(GUI)と制御情報を詳細に観察・分析する。これによりエージェントは、複数のアプリケーションにまたがっている場合でも、個々のアプリケーション内とアプリケーション間をシームレスにナビゲートして操作し、ユーザーの要求を満たすことができます。フレームワークには制御インタラクションモジュールが組み込まれており、人間の介入なしにアクションのグラウンディングを容易にし、完全に自動化された実行を可能にする。その結果、UFOは、困難で時間のかかるプロセスを、自然言語コマンドのみで達成可能なシンプルなタスクに変換する。我々は、ユーザーの日常的な使用状況を反映した様々なシナリオを網羅し、9つの一般的なWindowsアプリケーションでUFOのテストを実施した。その結果、定量的な指標と実際の事例研究の両方から、UFOがユーザーの要求を満たす上で優れた効果を発揮することが明らかになりました。我々の知る限り、UFOはWindows OS環境でのタスク完了に特化した初めてのUIエージェントである。UFOのオープンソースコードは、https://github.com/microsoft/UFO。

要約(オリジナル)

We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users’ daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.

arxiv情報

著者 Chaoyun Zhang,Liqun Li,Shilin He,Xu Zhang,Bo Qiao,Si Qin,Minghua Ma,Yu Kang,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang,Qi Zhang
発行日 2024-03-01 05:20:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク