SteP: Stacked LLM Policies for Web Actions

要約

Web 上でタスクを実行すると、組み合わせによる大規模なオープンワールド タスクや Web インターフェイス間のバリエーションなど、大規模言語モデル (LLM) に根本的な課題が生じます。
考えられるすべての動作と状態を処理するために大きなプロンプトを指定するだけでは非常に複雑になり、無関係な動作間で動作の漏れが発生します。
個別のポリシーに分解することでこの課題に対処できますが、ポリシー間で制御を慎重に引き渡す必要があります。
私たちは、多様な Web タスクを解決するためにポリシーを動的に作成するアプローチである Stacked LLM Policies for Web Actions (SteP) を提案します。
StepP は、状態が制御状態を表すポリシーのスタック、つまりポリシー呼び出しのチェーンであるマルコフ決定プロセスを定義します。
静的な階層に制限されていた従来の方法とは異なり、SteP ではタスクの複雑さに適応する動的な制御が可能になります。
当社では、複数のベースラインと、WebArena、MiniWoB++、CRM などの Web 環境に対して SteP を評価します。
WebArena では、SteP は GPT-4 ポリシーを使用する SOTA よりも向上 (14.9\% から 33.5\%) しますが、MiniWob++ では、SteP は使用するデータが大幅に少なくなり、以前の作品と競合します。
コードとデータは https://asappresearch.github.io/webagents-step で入手できます。

要約(オリジナル)

Performing tasks on the web presents fundamental challenges to large language models (LLMs), including combinatorially large open-world tasks and variations across web interfaces. Simply specifying a large prompt to handle all possible behaviors and states is extremely complex, and results in behavior leaks between unrelated behaviors. Decomposition to distinct policies can address this challenge, but requires carefully handing off control between policies. We propose Stacked LLM Policies for Web Actions (SteP), an approach to dynamically compose policies to solve a diverse set of web tasks. SteP defines a Markov Decision Process where the state is a stack of policies representing the control state, i.e., the chain of policy calls. Unlike traditional methods that are restricted to static hierarchies, SteP enables dynamic control that adapts to the complexity of the task. We evaluate SteP against multiple baselines and web environments including WebArena, MiniWoB++, and a CRM. On WebArena, SteP improves (14.9\% to 33.5\%) over SOTA that use GPT-4 policies, while on MiniWob++, SteP is competitive with prior works while using significantly less data. Our code and data are available at https://asappresearch.github.io/webagents-step.

arxiv情報

著者 Paloma Sodhi,S. R. K. Branavan,Yoav Artzi,Ryan McDonald
発行日 2024-08-06 17:26:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク