VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks

要約

Web 上でアクションを計画、推論、実行できる自律エージェントは、コンピューター タスクを自動化するための有望な手段を提供します。
ただし、既存のベンチマークの大部分は主にテキストベースのエージェントに焦点を当てており、効果的に解決するために視覚的な情報を必要とする多くの自然なタスクを無視しています。
ほとんどのコンピューター インターフェイスが人間の知覚に対応していることを考えると、テキストのみのモデルでは効果的に利用するのが難しい方法で、視覚情報がテキスト データを増強することがよくあります。
このギャップを埋めるために、現実的な \textit{視覚に基づいたタスク} におけるマルチモーダル Web エージェントのパフォーマンスを評価するように設計されたベンチマークである VisualWebArena を導入します。
VisualWebArena は、自律型マルチモーダル エージェントのさまざまな機能を評価する、多様で複雑な Web ベースのタスクのセットで構成されています。
このベンチマークで実行するには、エージェントは画像テキスト入力を正確に処理し、自然言語命令を解釈し、ユーザー定義の目標を達成するために Web サイト上でアクションを実行する必要があります。
私たちは、いくつかのマルチモーダル モデルを含む、最先端の LLM ベースの自律エージェントの広範な評価を実施します。
広範な定量的および定性的分析を通じて、テキストのみの LLM エージェントのいくつかの制限を特定し、最先端のマルチモーダル言語エージェントの機能のギャップを明らかにします。
VisualWebArena は、マルチモーダル自律言語エージェントを評価するためのフレームワークを提供し、Web 用のより強力な自律エージェントを構築するための洞察を提供します。
私たちのコード、ベースライン モデル、データは https://jykoh.com/vwa で公開されています。

要約(オリジナル)

Autonomous agents capable of planning, reasoning, and executing actions on the web offer a promising avenue for automating computer tasks. However, the majority of existing benchmarks primarily focus on text-based agents, neglecting many natural tasks that require visual information to effectively solve. Given that most computer interfaces cater to human perception, visual information often augments textual data in ways that text-only models struggle to harness effectively. To bridge this gap, we introduce VisualWebArena, a benchmark designed to assess the performance of multimodal web agents on realistic \textit{visually grounded tasks}. VisualWebArena comprises of a set of diverse and complex web-based tasks that evaluate various capabilities of autonomous multimodal agents. To perform on this benchmark, agents need to accurately process image-text inputs, interpret natural language instructions, and execute actions on websites to accomplish user-defined objectives. We conduct an extensive evaluation of state-of-the-art LLM-based autonomous agents, including several multimodal models. Through extensive quantitative and qualitative analysis, we identify several limitations of text-only LLM agents, and reveal gaps in the capabilities of state-of-the-art multimodal language agents. VisualWebArena provides a framework for evaluating multimodal autonomous language agents, and offers insights towards building stronger autonomous agents for the web. Our code, baseline models, and data is publicly available at https://jykoh.com/vwa.

arxiv情報

著者 Jing Yu Koh,Robert Lo,Lawrence Jang,Vikram Duvvur,Ming Chong Lim,Po-Yu Huang,Graham Neubig,Shuyan Zhou,Ruslan Salakhutdinov,Daniel Fried
発行日 2024-01-24 18:35:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク