AssistantBench: Can Web Agents Solve Realistic and Time-Consuming Tasks?

要約

言語エージェントは、言語モデル (LM) 上に構築され、オープン Web などの複雑な環境と対話できるシステムです。
この研究では、そのようなエージェントが、不動産市場の監視や近隣の関連企業の検索など、現実的で時間のかかるタスクをウェブ上で実行できるかどうかを検証します。
AssistantBench は、さまざまなシナリオやドメインをカバーし、自動的に評価できる 214 の現実的なタスクで構成される、挑戦的な新しいベンチマークです。
どのモデルも 25 ポイントを超える精度に達していないため、AssistantBench は言語モデルや検索拡張言語モデルを含む現在のシステムの限界を露呈していることがわかりました。
クローズドブック LM は良好なパフォーマンスを示しますが、事実を幻覚する傾向があるため、精度が低くなります。
最先端の Web エージェントのスコアはほぼゼロに達します。
さらに、以前のエージェントを大幅に上回る新しい Web エージェントである SeePlanAct (SPA) を導入し、SPA とクローズドブック モデルのアンサンブルが最高の全体的なパフォーマンスを実現します。
さらに、現在のシステムの障害を分析し、Web ナビゲーションが依然として大きな課題であることを強調します。

要約(オリジナル)

Language agents, built on top of language models (LMs), are systems that can interact with complex environments, such as the open web. In this work, we examine whether such agents can perform realistic and time-consuming tasks on the web, e.g., monitoring real-estate markets or locating relevant nearby businesses. We introduce AssistantBench, a challenging new benchmark consisting of 214 realistic tasks that can be automatically evaluated, covering different scenarios and domains. We find that AssistantBench exposes the limitations of current systems, including language models and retrieval-augmented language models, as no model reaches an accuracy of more than 25 points. While closed-book LMs perform well, they exhibit low precision since they tend to hallucinate facts. State-of-the-art web agents reach a score of near zero. Additionally, we introduce SeePlanAct (SPA), a new web agent that significantly outperforms previous agents, and an ensemble of SPA and closed-book models reaches the best overall performance. Moreover, we analyze failures of current systems and highlight that web navigation remains a major challenge.

arxiv情報

著者 Ori Yoran,Samuel Joseph Amouyal,Chaitanya Malaviya,Ben Bogin,Ofir Press,Jonathan Berant
発行日 2024-07-22 15:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク