Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

要約

大規模言語モデル (LLM) は、計画と推論を必要とするマルチモーダルなタスクにおいて人間の生産性とソフトウェアのアクセシビリティを向上させる、コンピューター エージェントとして機能する顕著な可能性を示しています。
ただし、現実的な環境でエージェントのパフォーマンスを測定することは依然として課題です。(i) ほとんどのベンチマークは特定のモダリティまたはドメイン (例: テキストのみ、Web ナビゲーション、Q&A、コーディング) に限定されており、(ii) 完全なベンチマーク評価は遅い (注文に応じて)
タスクの複数のステップからなる連続的な性質を考慮すると、数日程度)。
これらの課題に対処するために、Windows エージェント アリーナを導入しました。これは、Windows オペレーティング システム (OS) のみに焦点を当てた再現可能な一般的な環境で、エージェントは実際の Windows OS 内で自由に動作し、同じ幅広いアプリケーション、ツール、Web を使用できます。
人間のユーザーがタスクを解決するときに使用できるブラウザ。
OSWorld フレームワーク (Xie et al., 2024) を適応させて、計画、画面の理解、ツールの使用におけるエージェントの能力を必要とする代表的なドメインにわたる 150 以上の多様な Windows タスクを作成します。
私たちのベンチマークはスケーラブルであり、Azure でシームレスに並列化して、わずか 20 分で完全なベンチマーク評価を行うことができます。
Windows Agent Arena の機能を実証するために、新しいマルチモーダル エージェントである Navi も紹介します。
当社のエージェントは、Windows ドメインで 19.5% の成功率を達成しました。これに対し、人間の支援なしの場合のパフォーマンスは 74.5% でした。
Navi は、別の人気のある Web ベースのベンチマークである Mind2Web でも優れたパフォーマンスを示しています。
Navi のパフォーマンスに関する広範な定量的および定性的分析を提供し、Windows Agent Arena を使用したエージェント開発とデータ生成における将来の研究の機会についての洞察を提供します。
Web ページ: https://microsoft.github.io/WindowsAgentArena コード: https://github.com/microsoft/WindowsAgentArena

要約(オリジナル)

Large language models (LLMs) show remarkable potential to act as computer agents, enhancing human productivity and software accessibility in multi-modal tasks that require planning and reasoning. However, measuring agent performance in realistic environments remains a challenge since: (i) most benchmarks are limited to specific modalities or domains (e.g. text-only, web navigation, Q&A, coding) and (ii) full benchmark evaluations are slow (on order of magnitude of days) given the multi-step sequential nature of tasks. To address these challenges, we introduce the Windows Agent Arena: a reproducible, general environment focusing exclusively on the Windows operating system (OS) where agents can operate freely within a real Windows OS and use the same wide range of applications, tools, and web browsers available to human users when solving tasks. We adapt the OSWorld framework (Xie et al., 2024) to create 150+ diverse Windows tasks across representative domains that require agent abilities in planning, screen understanding, and tool usage. Our benchmark is scalable and can be seamlessly parallelized in Azure for a full benchmark evaluation in as little as 20 minutes. To demonstrate Windows Agent Arena’s capabilities, we also introduce a new multi-modal agent, Navi. Our agent achieves a success rate of 19.5% in the Windows domain, compared to 74.5% performance of an unassisted human. Navi also demonstrates strong performance on another popular web-based benchmark, Mind2Web. We offer extensive quantitative and qualitative analysis of Navi’s performance, and provide insights into the opportunities for future research in agent development and data generation using Windows Agent Arena. Webpage: https://microsoft.github.io/WindowsAgentArena Code: https://github.com/microsoft/WindowsAgentArena

arxiv情報

著者 Rogerio Bonatti,Dan Zhao,Francesco Bonacci,Dillon Dupont,Sara Abdali,Yinheng Li,Justin Wagle,Kazuhito Koishida,Arthur Bucker,Lawrence Jang,Zack Hui
発行日 2024-09-12 17:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク