要約
私たちは、Web ブラウザーを介してソフトウェアと対話するための大規模言語モデルベースのエージェントの使用を研究しています。
これまでの研究とは異なり、エンタープライズ ソフトウェア システムを利用するナレッジ ワーカーの典型的な日常業務にわたるタスクを実行するエージェントの能力を測定することに焦点を当てています。
この目的を達成するために、広く使用されている ServiceNow プラットフォームに基づいた 29 タスクのリモートホスト型ベンチマークである WorkArena を提案します。
また、そのようなエージェントの設計と評価のための環境である BrowserGym も紹介し、豊富なアクションとマルチモーダルな観察を提供します。
私たちの経験的評価により、現在のエージェントは WorkArena で有望である一方で、完全なタスクの自動化の実現には依然としてかなりのギャップがあることが明らかになりました。
特に、私たちの分析では、オープンソース LLM とクローズドソース LLM の間でパフォーマンスに大きな差があることが明らかになり、この分野での将来の探索と開発にとって重要な領域が浮き彫りになっています。
要約(オリジナル)
We study the use of large language model-based agents for interacting with software via web browsers. Unlike prior work, we focus on measuring the agents’ ability to perform tasks that span the typical daily work of knowledge workers utilizing enterprise software systems. To this end, we propose WorkArena, a remote-hosted benchmark of 29 tasks based on the widely-used ServiceNow platform. We also introduce BrowserGym, an environment for the design and evaluation of such agents, offering a rich set of actions as well as multimodal observations. Our empirical evaluation reveals that while current agents show promise on WorkArena, there remains a considerable gap towards achieving full task automation. Notably, our analysis uncovers a significant performance disparity between open and closed-source LLMs, highlighting a critical area for future exploration and development in the field.
arxiv情報
著者 | Alexandre Drouin,Maxime Gasse,Massimo Caccia,Issam H. Laradji,Manuel Del Verme,Tom Marty,Léo Boisvert,Megh Thakkar,Quentin Cappart,David Vazquez,Nicolas Chapados,Alexandre Lacoste |
発行日 | 2024-03-12 14:58:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google