HeaP: Hierarchical Policies for Web Actions using LLMs

要約

大規模言語モデル (LLM) は、少数のゼロショット設定でさまざまな命令に従うタスクを実行する際に優れた機能を実証しています。
ただし、Web 上でタスクを実行するように LLM を教えることには、組み合わせ的に大規模なオープンワールド タスクと Web インターフェイス間のバリエーションという根本的な課題が存在します。
私たちは、LLM を活用して Web タスクをサブタスクのコレクションに分解することでこれらの課題に取り組み、各サブタスクは低レベルの閉ループ ポリシーで解決できます。
これらのポリシーは、タスク間で共有される文法を構成します。つまり、新しい Web タスクは、これらのポリシーの構成として表現できます。
私たちは、新しいフレームワークである Hierarchical Policies for Web Actions using LLM (HeaP) を提案します。このフレームワークは、高レベルのタスクを計画し、一連の低レベルのポリシーを介して実行するためのデモンストレーションから一連の階層 LLM プロンプトを学習します。
MiniWoB++、WebArena、模擬航空会社 CRM、ライブ Web サイトのインタラクションなど、一連の Web タスクに関するさまざまなベースラインに対して HeaP を評価し、桁違いに少ないデータを使用して以前の研究を上回るパフォーマンスを発揮できることを示しました。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in performing a range of instruction following tasks in few and zero-shot settings. However, teaching LLMs to perform tasks on the web presents fundamental challenges — combinatorially large open-world tasks and variations across web interfaces. We tackle these challenges by leveraging LLMs to decompose web tasks into a collection of sub-tasks, each of which can be solved by a low-level, closed-loop policy. These policies constitute a shared grammar across tasks, i.e., new web tasks can be expressed as a composition of these policies. We propose a novel framework, Hierarchical Policies for Web Actions using LLMs (HeaP), that learns a set of hierarchical LLM prompts from demonstrations for planning high-level tasks and executing them via a sequence of low-level policies. We evaluate HeaP against a range of baselines on a suite of web tasks, including MiniWoB++, WebArena, a mock airline CRM, as well as live website interactions, and show that it is able to outperform prior works using orders of magnitude less data.

arxiv情報

著者 Paloma Sodhi,S. R. K. Branavan,Ryan McDonald
発行日 2023-10-05 17:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク