OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

要約

人間の介入を最小限に抑えて複雑なコンピュータタスクを実行する自律型エージェントは、人間とコンピュータの相互作用を変革し、アクセシビリティと生産性を大幅に向上させる可能性を秘めています。
ただし、既存のベンチマークには対話型環境がないか、特定のアプリケーションまたはドメインに固有の環境に限定されており、現実世界のコンピューター使用の多様で複雑な性質を反映できていないため、タスクの範囲とエージェントのスケーラビリティが制限されています。
この問題に対処するために、Ubuntu、Windows、macOS などのさまざまなオペレーティング システムでタスクのセットアップ、実行ベースの評価、対話型学習をサポートする、この種では初めてのマルチモーダル エージェント用のスケーラブルな実コンピューター環境である OSWorld を導入します。

OSWorld は、任意のアプリケーションを含むオープンエンドのコンピューター タスクを評価するための統合された統合コンピューター環境として機能します。
OSWorld を基盤として、オープン ドメインの実際の Web アプリとデスクトップ アプリ、OS ファイル I/O、および複数のアプリケーションにまたがるワークフローを含む 369 のコンピューター タスクのベンチマークを作成します。
各タスクの例は実際のコンピューターの使用例から派生しており、詳細な初期状態セットアップ構成と、信頼性が高く再現可能な評価を行うためのカスタム実行ベースの評価スクリプトが含まれています。
OSWorld での最先端の LLM/VLM ベースのエージェントの広範な評価により、コンピュータ アシスタントとして機能する能力に重大な欠陥があることが明らかになりました。
人間はタスクの 72.36% 以上を達成できますが、最良のモデルは 12.24% しか成功せず、主に GUI の基礎と操作知識に苦労しています。
OSWorld を使用した包括的な分析により、以前のベンチマークでは不可能だったマルチモーダル ジェネラリスト エージェントの開発に貴重な洞察が得られます。
私たちのコード、環境、ベースライン モデル、データは https://os-world.github.io で公開されています。

要約(オリジナル)

Autonomous agents that accomplish complex computer tasks with minimal human interventions have the potential to transform human-computer interaction, significantly enhancing accessibility and productivity. However, existing benchmarks either lack an interactive environment or are limited to environments specific to certain applications or domains, failing to reflect the diverse and complex nature of real-world computer use, thereby limiting the scope of tasks and agent scalability. To address this issue, we introduce OSWorld, the first-of-its-kind scalable, real computer environment for multimodal agents, supporting task setup, execution-based evaluation, and interactive learning across various operating systems such as Ubuntu, Windows, and macOS. OSWorld can serve as a unified, integrated computer environment for assessing open-ended computer tasks that involve arbitrary applications. Building upon OSWorld, we create a benchmark of 369 computer tasks involving real web and desktop apps in open domains, OS file I/O, and workflows spanning multiple applications. Each task example is derived from real-world computer use cases and includes a detailed initial state setup configuration and a custom execution-based evaluation script for reliable, reproducible evaluation. Extensive evaluation of state-of-the-art LLM/VLM-based agents on OSWorld reveals significant deficiencies in their ability to serve as computer assistants. While humans can accomplish over 72.36% of the tasks, the best model achieves only 12.24% success, primarily struggling with GUI grounding and operational knowledge. Comprehensive analysis using OSWorld provides valuable insights for developing multimodal generalist agents that were not possible with previous benchmarks. Our code, environment, baseline models, and data are publicly available at https://os-world.github.io.

arxiv情報

著者 Tianbao Xie,Danyang Zhang,Jixuan Chen,Xiaochuan Li,Siheng Zhao,Ruisheng Cao,Toh Jing Hua,Zhoujun Cheng,Dongchan Shin,Fangyu Lei,Yitao Liu,Yiheng Xu,Shuyan Zhou,Silvio Savarese,Caiming Xiong,Victor Zhong,Tao Yu
発行日 2024-04-11 17:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク