要約
GPT-Vision の機能を利用して、Windows OS 上のアプリケーションに合わせたユーザーのリクエストを満たす革新的な UI 中心のエージェントである UFO を紹介します。
UFO は、デュアル エージェント フレームワークを採用して、Windows アプリケーションのグラフィカル ユーザー インターフェイス (GUI) と制御情報を注意深く観察および分析します。
これにより、エージェントは、複数のアプリケーションにまたがる場合でも、個々のアプリケーション内およびアプリケーション間でシームレスに移動して操作し、ユーザー要求を満たすことができます。
このフレームワークには制御対話モジュールが組み込まれており、人間の介入なしでアクションの実行が容易になり、完全に自動化された実行が可能になります。
その結果、UFO は、困難で時間のかかるプロセスを、自然言語コマンドだけで達成できる単純なタスクに変換します。
私たちは、ユーザーの日常的な使用状況を反映したさまざまなシナリオを網羅して、9 つの人気のある Windows アプリケーションにわたって UFO のテストを実施しました。
定量的指標と実際の事例研究の両方から得られた結果は、ユーザーの要求を満たす上での UFO の優れた効果を強調しています。
私たちの知る限り、UFO は、Windows OS 環境内でタスクを完了するために特別に調整された最初の UI エージェントです。
UFO のオープンソース コードは、https://github.com/microsoft/UFO で入手できます。
要約(オリジナル)
We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users’ daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
arxiv情報
著者 | Chaoyun Zhang,Liqun Li,Shilin He,Xu Zhang,Bo Qiao,Si Qin,Minghua Ma,Yu Kang,Qingwei Lin,Saravan Rajmohan,Dongmei Zhang,Qi Zhang |
発行日 | 2024-02-19 15:33:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google