要約
事前トレーニングされた大規模言語モデル (LLM) は最近、自律的な Web ナビゲーションにおいてより優れた一般化とサンプル効率を達成しました。
しかし、現実世界の Web サイトのパフォーマンスは、(1) オープン ドメイン性、(2) コンテキストの長さの制限、(3) HTML の帰納的バイアスの欠如などの理由で依然として影響を受けています。
WebAgent は、自然言語の指示に従って実際の Web サイト上でタスクを完了できる LLM ベースのエージェントです。
WebAgent は、命令を正規のサブ命令に分解することで事前に計画を立て、長い HTML ドキュメントをタスク関連のスニペットに要約し、そこから生成された Python プログラムを介して Web サイトに作用します。
私たちは、根拠のあるコード生成用に Flan-U-PaLM を使用して WebAgent を設計し、計画と要約用に、ローカルおよびグローバル アテンション メカニズムと長期スパンのノイズ除去目標の混合を使用する、長い HTML ドキュメント用の新しい事前トレーニング済み LLM である HTML-T5 を使用して WebAgent を設計します。
私たちは、私たちのレシピが実際の Web サイトでの成功を 50% 以上向上させ、HTML-T5 が HTML ベースのタスクを解決する最適なモデルであることを経験的に示しています。
MiniWoB Web ナビゲーション ベンチマークで以前の SoTA よりも 14.9% 高い成功率を達成し、オフライン タスク計画評価の精度が向上しました。
要約(オリジナル)
Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web navigation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that can complete the tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via generated Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our recipe improves the success on a real website by over 50%, and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9% higher success rate than prior SoTA on the MiniWoB web navigation benchmark and better accuracy on offline task planning evaluation.
arxiv情報
著者 | Izzeddin Gur,Hiroki Furuta,Austin Huang,Mustafa Safdari,Yutaka Matsuo,Douglas Eck,Aleksandra Faust |
発行日 | 2023-07-24 14:56:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google