macOSWorld: A Multilingual Interactive Benchmark for GUI Agents

要約

グラフィカルユーザーインターフェイス(GUI)エージェントは、コンピューター使用タスクを自動化し、アクセシビリティを促進するための有望な機能を示していますが、既存のインタラクティブなベンチマークは、ほとんどが英語のみであり、Web使用またはWindows、Linux、およびAndroid環境をカバーしますが、Macosではありません。
MacOSは、独特のGUIパターンと排他的アプリケーションを備えた主要なOSです。
ギャップを橋渡しするために、MacosWorldを紹介します。これは、MacOSのGUIエージェントを評価するための最初の包括的なベンチマークです。
MacosWorldは、30のアプリケーション(28のMacos専用)にわたって202の多言語インタラクティブなタスクを備えており、タスク命令とOSインターフェイスは5つの言語(英語、中国語、アラビア語、日本、ロシア語)で提供されています。
GUIエージェントは欺ception攻撃に対して脆弱であることが示されているため、Macosworldには専用の安全ベンチマークサブセットも含まれています。
6人のGUIエージェントに関する評価は、劇的なギャップを明らかにしています。独自のコンピューター使用エージェントは30%を超える成功率でリードし、オープンソースの軽量研究モデルは2%未満で遅れ、MACOSドメイン適応の必要性を強調しています。
また、多言語のベンチマークは、特にアラビア語では、英語と比較して27.5%の平均劣化を伴う一般的な弱点を明らかにします。
安全ベンチマークの結果は、欺ception攻撃がより一般的であり、即座に注意を要求することを強調しています。
Macosworldはhttps://github.com/showlab/macosworldで入手できます。

要約(オリジナル)

Graphical User Interface (GUI) agents show promising capabilities for automating computer-use tasks and facilitating accessibility, but existing interactive benchmarks are mostly English-only, covering web-use or Windows, Linux, and Android environments, but not macOS. macOS is a major OS with distinctive GUI patterns and exclusive applications. To bridge the gaps, we present macOSWorld, the first comprehensive benchmark for evaluating GUI agents on macOS. macOSWorld features 202 multilingual interactive tasks across 30 applications (28 macOS-exclusive), with task instructions and OS interfaces offered in 5 languages (English, Chinese, Arabic, Japanese, and Russian). As GUI agents are shown to be vulnerable to deception attacks, macOSWorld also includes a dedicated safety benchmarking subset. Our evaluation on six GUI agents reveals a dramatic gap: proprietary computer-use agents lead at above 30% success rate, while open-source lightweight research models lag at below 2%, highlighting the need for macOS domain adaptation. Multilingual benchmarks also expose common weaknesses, especially in Arabic, with a 27.5% average degradation compared to English. Results from safety benchmarking also highlight that deception attacks are more general and demand immediate attention. macOSWorld is available at https://github.com/showlab/macosworld.

arxiv情報

著者 Pei Yang,Hai Ci,Mike Zheng Shou
発行日 2025-06-04 16:26:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク