要約
大規模言語モデル (LLM) は、Web ナビゲーションなどの対話型の意思決定タスクにうまく適応されています。
以前のメソッドは、適切なパフォーマンスを達成しながら、モデルに対して前方のみの実行モードを暗黙的に想定しており、対話型環境で推論する方法をモデルに教えるためのコンテキスト内サンプルとしてオラクル軌跡のみを提供していました。
その結果、モデルは、コンテキスト内の例でカバーされていない、より困難なシナリオ (例: 間違いなど) を処理できず、次善のパフォーマンスにつながりました。
この問題に対処するために、対話型タスクを状態空間探索としてモデル化することを提案します。LLM エージェントは、タスクを完了するためのアクションを実行することで、事前に定義された一連の状態間を遷移します。
この定式化により柔軟なバックトラッキングが可能になり、モデルがエラーから簡単に回復できるようになります。
WebShop タスクで提案した LLM エージェントを State-Space ExploRation (LASER) で評価します。
実験結果は、LASER エージェントが以前の方法を大幅に上回り、Web ナビゲーション タスクにおける人間のパフォーマンスとの差を縮めることを示しています。
要約(オリジナル)
Large language models (LLMs) have been successfully adapted for interactive decision-making tasks like web navigation. While achieving decent performance, previous methods implicitly assume a forward-only execution mode for the model, where they only provide oracle trajectories as in-context examples to teach the model how to reason in the interactive environment. Consequently, the model could not handle more challenging scenarios not covered in the in-context examples, e.g., mistakes, leading to sub-optimal performance. To address this issue, we propose to model the interactive task as state space exploration, where the LLM agent transitions among a pre-defined set of states by performing actions to complete the task. This formulation enables flexible back-tracking, allowing the model to easily recover from errors. We evaluate our proposed LLM Agent with State-Space ExploRation (LASER) on the WebShop task. Experimental results show that our LASER agent significantly outperforms previous methods and closes the gap with human performance on the web navigation task.
arxiv情報
著者 | Kaixin Ma,Hongming Zhang,Hongwei Wang,Xiaoman Pan,Dong Yu |
発行日 | 2023-09-15 05:44:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google