A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis

要約

事前トレーニングされた大規模言語モデル (LLM) は最近、自律的な Web オートメーションにおいてより優れた一般化とサンプル効率を達成しました。
しかし、現実世界の Web サイトのパフォーマンスは、(1) オープン ドメイン性、(2) コンテキストの長さの制限、(3) HTML の帰納的バイアスの欠如などの理由で依然として影響を受けています。
WebAgent は、自己経験から学習し、自然言語の指示に従って実際の Web サイトでタスクを完了する LLM ベースのエージェントです。
WebAgent は、命令を正規のサブ命令に分解することで事前に計画を立て、長い HTML ドキュメントをタスク関連のスニペットに要約し、そこから生成された Python プログラムを介して Web サイトに作用します。
私たちは、根拠のあるコード生成用に Flan-U-PaLM を使用して WebAgent を設計し、計画と要約用に、ローカルおよびグローバル アテンション メカニズムと長期スパンのノイズ除去目標の混合を使用する、長い HTML ドキュメント用の新しい事前トレーニング済み LLM である HTML-T5 を使用して WebAgent を設計します。
私たちは、モジュール式レシピにより実際の Web サイトでの成功率が 50% 以上向上すること、および HTML-T5 がさまざまな HTML 理解タスクを解決する最適なモデルであることを経験的に実証しています。
MiniWoB Web オートメーション ベンチマークで以前の方法より 18.7% 高い成功率を達成し、オフライン タスク計画評価である Mind2Web での SoTA パフォーマンスを達成しました。

要約(オリジナル)

Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web automation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that learns from self-experience to complete tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via Python programs generated from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our modular recipe improves the success on real websites by over 50%, and that HTML-T5 is the best model to solve various HTML understanding tasks; achieving 18.7% higher success rate than the prior method on MiniWoB web automation benchmark, and SoTA performance on Mind2Web, an offline task planning evaluation.

arxiv情報

著者 Izzeddin Gur,Hiroki Furuta,Austin Huang,Mustafa Safdari,Yutaka Matsuo,Douglas Eck,Aleksandra Faust
発行日 2023-10-01 10:30:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク