GPT-4V(ision) is a Generalist Web Agent, if Grounded

要約

GPT-4V(ision)やGeminiに代表される大規模マルチモーダルモデル(LMM)の最近の発展は、画像キャプションや視覚的質問応答のような従来のタスクを越えて、マルチモーダルモデルの能力の境界を急速に広げている。本研究では、GPT-4VのようなLMMが、自然言語の指示に従い、任意のWebサイト上でタスクを完了できる汎化ウェブエージェントとしての可能性を探る。我々は、LMMの能力を活用し、ウェブ上での視覚的理解と行動を統合した汎化ウェブエージェントであるSEEACTを提案する。最近のMIND2WEBベンチマークで評価する。キャッシュされたWebサイト上での標準的なオフライン評価に加え、ライブWebサイト上でWebエージェントを実行できるツールを開発することで、新しいオンライン評価設定を可能にした。我々は、GPT-4Vがウェブエージェントとして大きな可能性を秘めていることを示す。GPT-4Vは、手動でそのテキスト計画をウェブサイト上のアクションにグラウンディングした場合、ライブウェブサイト上のタスクの50%を成功裏に完了することができる。これは、GPT-4のようなテキストのみのLLMや、ウェブエージェント用に特別に微調整された小さなモデル(FLAN-T5やBLIP-2)を大幅に上回る。しかしながら、グラウンディングは依然として大きな課題である。マークプロンプトのような既存のLMMのグラウンディング戦略はウェブエージェントには有効でないことが判明し、本稿で開発した最良のグラウンディング戦略はHTMLテキストとビジュアルの両方を活用する。しかし、オラクルグラウンディングとはまだ大きな隔たりがあり、更なる改善の余地が残されている。

要約(オリジナル)

The recent development on large multimodal models (LMMs), especially GPT-4V(ision) and Gemini, has been quickly expanding the capability boundaries of multimodal models beyond traditional tasks like image captioning and visual question answering. In this work, we explore the potential of LMMs like GPT-4V as a generalist web agent that can follow natural language instructions to complete tasks on any given website. We propose SEEACT, a generalist web agent that harnesses the power of LMMs for integrated visual understanding and acting on the web. We evaluate on the recent MIND2WEB benchmark. In addition to standard offline evaluation on cached websites, we enable a new online evaluation setting by developing a tool that allows running web agents on live websites. We show that GPT-4V presents a great potential for web agents – it can successfully complete 50% of the tasks on live websites if we manually ground its textual plans into actions on the websites. This substantially outperforms text-only LLMs like GPT-4 or smaller models (FLAN-T5 and BLIP-2) specifically fine-tuned for web agents. However, grounding still remains a major challenge. Existing LMM grounding strategies like set-of-mark prompting turns out not effective for web agents, and the best grounding strategy we develop in this paper leverages both the HTML text and visuals. Yet, there is still a substantial gap with oracle grounding, leaving ample room for further improvement.

arxiv情報

著者 Boyuan Zheng,Boyu Gou,Jihyung Kil,Huan Sun,Yu Su
発行日 2024-01-03 08:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.IR パーマリンク