要約
大規模言語モデル (LLM) を使用してコンピューターを制御するエージェントを構築することは、新しい研究分野であり、エージェントはコンピューターの状態を認識し、複雑なタスクを達成するためのアクションを実行します。
これまでのコンピュータ エージェントは、コンテキスト内学習 (ICL) の利点を実証してきました。
ただし、そのパフォーマンスはいくつかの問題によって妨げられています。
まず、LLM のコンテキストの長さの制限と複雑なコンピューター状態により、単一の Web ページがコンテキスト全体を消費する可能性があるため、イグザンプラの数が制限されます。
第 2 に、大まかな計画や多肢選択式の質問など、現在の手法の模範は完全な軌跡を表すことができないため、多くのステップや繰り返しのアクションを必要とするタスクでは最適なパフォーマンスが得られません。
第三に、既存のコンピュータ エージェントはタスク固有のサンプルに依存し、タスク間の類似性を見落とすため、新しいタスクへの一般化が不十分になります。
これらの課題に対処するために、我々は 3 つの重要なコンポーネントを備えた Synapse を導入します。i) 生の状態からタスクに無関係な情報をフィルタリングして除外する状態抽象化により、限られたコンテキスト内でより多くのサンプルを許可します。ii) サンプルとしての軌跡プロンプト。
改善された複数ステップの意思決定のための、抽象化された状態とアクションの完全な軌跡を備えた LLM、および iii) 見本メモリ。見本メモリ。見本メモリは、見本の埋め込みを保存し、新しいタスクへの一般化のための類似性検索を通じてそれらを取得します。
標準タスク スイートである MiniWoB++ と、実際の Web サイトのベンチマークである Mind2Web で Synapse を評価します。
MiniWoB++ では、Synapse は、わずか 48 タスクのデモンストレーションを使用して、64 タスク全体で 99.2% の平均成功率 (10% の相対改善) を達成しました。
特に、Synapse は、MiniWoB++ のブックフライト タスクを解決する最初の ICL メソッドです。
また、Synapse は、Mind2Web の以前の最先端のプロンプト スキームと比較して、平均ステップ成功率が 53% 相対的に向上しています。
要約(オリジナル)
Building agents using large language models (LLMs) to control computers is an emerging research field, where the agent perceives computer states and performs actions to accomplish complex tasks. Previous computer agents have demonstrated the benefits of in-context learning (ICL); however, their performance is hindered by several issues. First, the limited context length of LLMs and complex computer states restrict the number of exemplars, as a single webpage can consume the entire context. Second, the exemplars in current methods, such as high-level plans and multi-choice questions, cannot represent complete trajectories, leading to suboptimal performance in tasks that require many steps or repeated actions. Third, existing computer agents rely on task-specific exemplars and overlook the similarity among tasks, resulting in poor generalization to novel tasks. To address these challenges, we introduce Synapse, featuring three key components: i) state abstraction, which filters out task-irrelevant information from raw states, allowing more exemplars within the limited context, ii) trajectory-as-exemplar prompting, which prompts the LLM with complete trajectories of the abstracted states and actions for improved multi-step decision-making, and iii) exemplar memory, which stores the embeddings of exemplars and retrieves them via similarity search for generalization to novel tasks. We evaluate Synapse on MiniWoB++, a standard task suite, and Mind2Web, a real-world website benchmark. In MiniWoB++, Synapse achieves a 99.2% average success rate (a 10% relative improvement) across 64 tasks using demonstrations from only 48 tasks. Notably, Synapse is the first ICL method to solve the book-flight task in MiniWoB++. Synapse also exhibits a 53% relative improvement in average step success rate over the previous state-of-the-art prompting scheme in Mind2Web.
arxiv情報
著者 | Longtao Zheng,Rundong Wang,Xinrun Wang,Bo An |
発行日 | 2023-10-06 17:28:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google