Synapse: Leveraging Few-Shot Exemplars for Human-Level Computer Control

要約

この論文では、大規模言語モデル (LLM) をプロンプトすることによるコンピューター自動化のための少数ショットのサンプルの設計について調査します。
これまでの刺激的なアプローチは自己修正に焦点を当てていましたが、人間レベルのパフォーマンスには適切に構造化された模範だけで十分であることがわかりました。
MiniWob++ ベンチマークで人間レベルのパフォーマンスを実証する、コンテキスト内コンピューター制御エージェントである Synapse を紹介します。
Synapse は 3 つの主要なコンポーネントで構成されます。1) 状態条件分解。エージェントの新しい環境状態の必要性に基づいてデモンストレーションをサンプル セットに分割し、時間的な抽象化を可能にします。
2) 構造化されたプロンプト。状態をフィルタリングし、各セットのタスクの説明を再定式化し、計画の正確性を向上させます。
3) マルチタスクの適応と一般化のために、受信タスクをイグザンプラ データベース内の対応するイグザンプラと関連付けるイグザンプラの検索。
Synapse はコンテキストの長さの制限を克服し、マルチステップ制御でのエラーを減らし、コンテキスト内でより多くのサンプルを使用できるようにします。
重要なことは、Synapse は、LLM の推論能力と計画能力を強化する既存のプロンプト アプローチを補完することです。
Synapse は、行動クローン作成、強化学習、微調整、プロンプトなどの以前の方法よりも優れたパフォーマンスを示し、MiniWob++ の 63 タスクにわたる平均成功率は $98.5\%$ でした。
特に、Synapse は 47 個のタスクのみのサンプルに依存しており、新しいタスクに対する効果的な一般化を示しています。
私たちの結果は、LLM の実用的なツール自動化への統合を進めるためのコンテキスト内学習の可能性を浮き彫りにしています。

要約(オリジナル)

This paper investigates the design of few-shot exemplars for computer automation through prompting large language models (LLMs). While previous prompting approaches focus on self-correction, we find that well-structured exemplars alone are sufficient for human-level performance. We present Synapse, an in-context computer control agent demonstrating human-level performance on the MiniWob++ benchmark. Synapse consists of three main components: 1) state-conditional decomposition, which divides demonstrations into exemplar sets based on the agent’s need for new environment states, enabling temporal abstraction; 2) structured prompting, which filters states and reformulates task descriptions for each set to improve planning correctness; and 3) exemplar retrieval, which associates incoming tasks with corresponding exemplars in an exemplar database for multi-task adaptation and generalization. Synapse overcomes context length limits, reduces errors in multi-step control, and allows for more exemplars within the context. Importantly, Synapse complements existing prompting approaches that enhance LLMs’ reasoning and planning abilities. Synapse outperforms previous methods, including behavioral cloning, reinforcement learning, finetuning, and prompting, with an average success rate of $98.5\%$ across 63 tasks in MiniWob++. Notably, Synapse relies on exemplars from only 47 tasks, demonstrating effective generalization to novel tasks. Our results highlight the potential of in-context learning to advance the integration of LLMs into practical tool automation.

arxiv情報

著者 Longtao Zheng,Rundong Wang,Bo An
発行日 2023-06-13 15:49:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク