LASER: LLM Agent with State-Space Exploration for Web Navigation

要約

大規模言語モデル (LLM) は、Web ナビゲーションなどの対話型の意思決定タスクにうまく適応されています。
以前のメソッドは、適切なパフォーマンスを達成しながら、モデルの順方向のみの実行モードを暗黙的に想定しており、環境内で推論する方法についてモデルをガイドするためのコンテキスト内の例としてオラクル軌跡のみを提供します。
その結果、モデルは、コンテキスト内の例でカバーされていない、より困難なシナリオ (例: 間違いなど) を処理できず、次善のパフォーマンスにつながりました。
この問題に対処するために、対話型タスクを状態空間探索としてモデル化することを提案します。LLM エージェントは、タスクを完了するためのアクションを実行することで、事前に定義された一連の状態間を遷移します。
この定式化により柔軟なバックトラッキングが可能になり、モデルがエラーから簡単に回復できるようになります。
私たちは、WebShop タスクと amazon.com の両方で、提案した LLM Agent with State-Space ExploRation (LASER) を評価します。
実験結果は、LASER が以前の方法を大幅に上回り、Web ナビゲーション タスクにおける人間のパフォーマンスとの差を縮めることを示しています。

要約(オリジナル)

Large language models (LLMs) have been successfully adapted for interactive decision-making tasks like web navigation. While achieving decent performance, previous methods implicitly assume a forward-only execution mode for the model, where they only provide oracle trajectories as in-context examples to guide the model on how to reason in the environment. Consequently, the model could not handle more challenging scenarios not covered in the in-context examples, e.g., mistakes, leading to sub-optimal performance. To address this issue, we propose to model the interactive task as state space exploration, where the LLM agent transitions among a pre-defined set of states by performing actions to complete the task. This formulation enables flexible backtracking, allowing the model to recover from errors easily. We evaluate our proposed LLM Agent with State-Space ExploRation (LASER) on both the WebShop task and amazon.com. Experimental results show that LASER significantly outperforms previous methods and closes the gap with human performance on the web navigation task.

arxiv情報

著者 Kaixin Ma,Hongming Zhang,Hongwei Wang,Xiaoman Pan,Wenhao Yu,Dong Yu
発行日 2024-02-21 17:42:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク