Agent Workflow Memory

要約

言語モデルベースのエージェントには、Web ナビゲーションなどの現実世界のタスクを解決できる可能性があるにもかかわらず、現在の方法では、複雑なアクションの軌跡を伴う長期的なタスクに依然として苦戦しています。
対照的に、人間は、過去の経験から再利用可能なタスクのワークフローを学習し、それを将来のアクションの指針として使用することで、複雑なタスクを柔軟に解決できます。
このプロセスから同様の恩恵を受けるエージェントを構築するために、エージェント ワークフロー メモリ (AWM) を導入します。これは、一般的に再利用されるルーチン、つまりワークフローを誘導し、後続の世代をガイドするためにエージェントにワークフローを選択的に提供するための方法です。
AWM は、オフラインとオンラインの両方のシナリオに柔軟に適用され、エージェントが事前のトレーニング サンプルまたはオンザフライのテスト クエリからワークフローを誘導します。
私たちは、Mind2Web と WebArena という 2 つの主要な Web ナビゲーション ベンチマークを実験しています。これらのベンチマークは、旅行、ショッピング、ソーシャル メディアなど、200 以上のドメインからの 1000 以上のタスクをまとめてカバーしています。
AWM は、WebArena タスクを正常に解決するために必要なステップ数を削減しながら、Mind2Web および WebArena でのベースライン結果を 24.6% および相対成功率 51.1% 向上させます。
さらに、オンライン AWM はクロスタスク、Web サイト、およびドメインの評価を強力に一般化し、トレーニングとテストのタスクの分布ギャップが拡大するにつれて、ベースラインの絶対ポイント 8.9 から 14.0 を上回りました。

要約(オリジナル)

Despite the potential of language model-based agents to solve real-world tasks such as web navigation, current methods still struggle with long-horizon tasks with complex action trajectories. In contrast, humans can flexibly solve complex tasks by learning reusable task workflows from past experiences and using them to guide future actions. To build agents that can similarly benefit from this process, we introduce Agent Workflow Memory (AWM), a method for inducing commonly reused routines, i.e., workflows, and selectively providing workflows to the agent to guide subsequent generations. AWM flexibly applies to both offline and online scenarios, where agents induce workflows from training examples beforehand or from test queries on the fly. We experiment on two major web navigation benchmarks — Mind2Web and WebArena — that collectively cover 1000+ tasks from 200+ domains across travel, shopping, and social media, among others. AWM substantially improves the baseline results by 24.6% and 51.1% relative success rate on Mind2Web and WebArena while reducing the number of steps taken to solve WebArena tasks successfully. Furthermore, online AWM robustly generalizes in cross-task, website, and domain evaluations, surpassing baselines from 8.9 to 14.0 absolute points as train-test task distribution gaps widen.

arxiv情報

著者 Zora Zhiruo Wang,Jiayuan Mao,Daniel Fried,Graham Neubig
発行日 2024-09-11 17:21:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク