TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

要約

私たちは日常生活でも仕事でも、日常的にコンピューターと対話しており、仕事の多くの側面はコンピューターとインターネットへのアクセスだけで完了できます。
同時に、大規模言語モデル (LLM) の改善のおかげで、周囲の環境と相互作用し、その変化に影響を与える AI エージェントも急速に開発されています。
しかし、AI エージェントは、仕事関連のタスクを加速したり、自律的に実行したりする上で、どれほどのパフォーマンスを発揮するのでしょうか?
この質問に対する答えは、ワークフローに AI を導入しようとしている業界と、AI の導入が労働市場に与える影響を理解する経済政策の両方にとって重要な意味を持ちます。
現実世界の専門的タスクの実行におけるこれらの LLM エージェントのパフォーマンスの進歩を測定するために、このホワイトペーパーでは、デジタル ワーカーと同様の方法で世界と対話する AI エージェントを評価するための拡張可能なベンチマークである TheAgentCompany を紹介します。
Web、コードの作成、プログラムの実行、他の同僚とのコミュニケーション。
私たちは、小規模なソフトウェア会社の環境を模倣した内部 Web サイトとデータを備えた自己完結型の環境を構築し、そのような会社の従業員が実行できるさまざまなタスクを作成します。
私たちは、クローズド API ベースとオープンウェイト言語モデル (LM) の両方を活用したベースライン エージェントをテストし、最も競争力のあるエージェントを使用すると、タスクの 24% が自律的に完了できることがわかりました。
これは、LM エージェントを使用したタスクの自動化に関する微妙な状況を示しています。実際の職場をシミュレートした設定では、単純なタスクの大部分は自律的に解決できますが、長期にわたるより困難なタスクは依然として現在のシステムの範囲を超えています。

要約(オリジナル)

We interact with computers on an everyday basis, be it in everyday life or work, and many aspects of work can be done entirely with access to a computer and the Internet. At the same time, thanks to improvements in large language models (LLMs), there has also been a rapid development in AI agents that interact with and affect change in their surrounding environments. But how performant are AI agents at helping to accelerate or even autonomously perform work-related tasks? The answer to this question has important implications for both industry looking to adopt AI into their workflows, and for economic policy to understand the effects that adoption of AI may have on the labor market. To measure the progress of these LLM agents’ performance on performing real-world professional tasks, in this paper, we introduce TheAgentCompany, an extensible benchmark for evaluating AI agents that interact with the world in similar ways to those of a digital worker: by browsing the Web, writing code, running programs, and communicating with other coworkers. We build a self-contained environment with internal web sites and data that mimics a small software company environment, and create a variety of tasks that may be performed by workers in such a company. We test baseline agents powered by both closed API-based and open-weights language models (LMs), and find that with the most competitive agent, 24% of the tasks can be completed autonomously. This paints a nuanced picture on task automation with LM agents — in a setting simulating a real workplace, a good portion of simpler tasks could be solved autonomously, but more difficult long-horizon tasks are still beyond the reach of current systems.

arxiv情報

著者 Frank F. Xu,Yufan Song,Boxuan Li,Yuxuan Tang,Kritanjali Jain,Mengxue Bao,Zora Z. Wang,Xuhui Zhou,Zhitong Guo,Murong Cao,Mingyang Yang,Hao Yang Lu,Amaad Martin,Zhe Su,Leander Maben,Raj Mehta,Wayne Chi,Lawrence Jang,Yiqing Xie,Shuyan Zhou,Graham Neubig
発行日 2024-12-18 18:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク