OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents

要約

このホワイトペーパーでは、Osuniverseを紹介します。これは、使いやすさ、拡張性、テストケースの包括的なカバレッジ、自動検証に焦点を当てた高度なGUIナビゲーションAIエージェントのための複雑でマルチモーダルデスクトップ指向のタスクのベンチマークです。
基本的な精度のクリックから、エージェントからの器用さ、精度、および明確な思考を必要とする多段階、多段階、多段階、多段階、多段階のテストに至るまで、複雑さのレベルを上げるタスクを分けます。
ここに示されているベンチマークのバージョン1では、ベンチマークテストケースの複雑さを調整して、SOTA(最先端)エージェント(出版時に)が50%を超える結果を達成しないようにしますが、平均的なホワイトカラーワーカーはこれらすべてのタスクを完璧な精度で実行できます。
ベンチマークは手動で採点することができますが、平均エラー率が2%未満の自動検証メカニズムも導入します。
したがって、このベンチマークは、短期および中期の地平線にわたるGUIナビゲーションAIエージェントの進捗、能力、および有効性の完全に自動化された測定のための堅実な地面を提供します。
ベンチマークのソースコードは、https://github.com/agentsea/osuniverseで入手できます。

要約(オリジナル)

In this paper, we introduce OSUniverse: a benchmark of complex, multimodal desktop-oriented tasks for advanced GUI-navigation AI agents that focuses on ease of use, extensibility, comprehensive coverage of test cases, and automated validation. We divide the tasks in increasing levels of complexity, from basic precision clicking to multistep, multiapplication tests requiring dexterity, precision, and clear thinking from the agent. In version one of the benchmark, presented here, we have calibrated the complexity of the benchmark test cases to ensure that the SOTA (State of the Art) agents (at the time of publication) do not achieve results higher than 50%, while the average white collar worker can perform all these tasks with perfect accuracy. The benchmark can be scored manually, but we also introduce an automated validation mechanism that has an average error rate less than 2%. Therefore, this benchmark presents solid ground for fully automated measuring of progress, capabilities and the effectiveness of GUI-navigation AI agents over the short and medium-term horizon. The source code of the benchmark is available at https://github.com/agentsea/osuniverse.

arxiv情報

著者 Mariya Davydova,Daniel Jeffries,Patrick Barker,Arturo Márquez Flores,Sinéad Ryan
発行日 2025-05-06 14:29:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク