AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents

要約

日常のデジタルタスク (家庭用の食料品の注文など) に対処する自律エージェントは、API を介して複数のアプリ (メモ、メッセージング、ショッピング アプリなど) を操作するだけでなく、複雑な制御フローを備えたリッチなコードを生成する必要があります。
環境との相互作用に基づいた反復的な方法。
ただし、ツールの使用に関する既存のベンチマークは、単純な一連の API 呼び出しを必要とするタスクのみをカバーしているため、不十分です。
このギャップを埋めるために、私たちは $\textbf{AppWorld Engine}$ を構築しました。これは、457 個の API を介して操作可能な 9 つの日常アプリの高品質な実行環境 (コード 60,000 行) であり、人々の生活をシミュレートする現実的なデジタル アクティビティが組み込まれています。
最大 100 人の架空のユーザー。
次に、$\textbf{AppWorld Benchmark}$ (コード 40,000 行) を作成しました。これは、豊富でインタラクティブなコード生成を必要とする、750 の自然で多様かつやりがいのある自律エージェント タスクのスイートです。
状態ベースの単体テストによる堅牢なプログラム評価をサポートしており、さまざまな方法でタスクを完了できると同時に、予期せぬ変化、つまり巻き添え被害もチェックできます。
最先端の LLM である GPT-4o は、「通常の」タスクの最大 49%、「課題」タスクの最大 30% しか解決しませんが、他のモデルの解決数は少なくとも 16% 少ないです。
これは、ベンチマークの難しさと、インタラクティブ コーディング エージェントの最前線を押し広げる AppWorld の可能性を浮き彫りにしています。
プロジェクトの Web サイトは https://appworld.dev/ から入手できます。

要約(オリジナル)

Autonomous agents that address day-to-day digital tasks (e.g., ordering groceries for a household), must not only operate multiple apps (e.g., notes, messaging, shopping app) via APIs, but also generate rich code with complex control flow in an iterative manner based on their interaction with the environment. However, existing benchmarks for tool use are inadequate, as they only cover tasks that require a simple sequence of API calls. To remedy this gap, we built $\textbf{AppWorld Engine}$, a high-quality execution environment (60K lines of code) of 9 day-to-day apps operable via 457 APIs and populated with realistic digital activities simulating the lives of ~100 fictitious users. We then created $\textbf{AppWorld Benchmark}$ (40K lines of code), a suite of 750 natural, diverse, and challenging autonomous agent tasks requiring rich and interactive code generation. It supports robust programmatic evaluation with state-based unit tests, allowing for different ways of completing a task while also checking for unexpected changes, i.e., collateral damage. The state-of-the-art LLM, GPT-4o, solves only ~49% of our ‘normal’ tasks and ~30% of ‘challenge’ tasks, while other models solve at least 16% fewer. This highlights the benchmark’s difficulty and AppWorld’s potential to push the frontiers of interactive coding agents. The project website is available at https://appworld.dev/.

arxiv情報

著者 Harsh Trivedi,Tushar Khot,Mareike Hartmann,Ruskin Manku,Vinty Dong,Edward Li,Shashank Gupta,Ashish Sabharwal,Niranjan Balasubramanian
発行日 2024-07-26 17:55:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE パーマリンク