SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks


人間の認知の二重プロセス理論に触発された新しいエージェント フレームワークである SwiftSage を紹介します。これは、複雑なインタラクティブな推論タスクのアクション プランニングに優れるように設計されています。
SwiftSage は、動作の複製と大規模言語モデル (LLM) のプロンプトの長所を統合して、タスク完了のパフォーマンスを強化します。
このフレームワークは 2 つの主要なモジュールで構成されます。1 つは高速かつ直観的な思考を表す Swift モジュール、もう 1 つは意図的な思考プロセスをエミュレートする Sage モジュールです。
Swift モジュールは、オラクル エージェントのアクションの軌跡に合わせて微調整された小型のエンコーダー/デコーダー LM ですが、Sage モジュールはサブゴールの計画とグラウンディングに GPT-4 などの LLM を採用しています。
私たちは、2 つのモジュールを調和して統合するヒューリスティックな手法を開発し、より効率的で堅牢な問題解決プロセスを実現します。
ScienceWorld ベンチマークの 30 タスクにおいて、SwiftSage は、SayCan、ReAct、Reflexion などの他の手法を大幅に上回り、複雑な対話型タスクの解決における有効性を示しています。


We introduce SwiftSage, a novel agent framework inspired by the dual-process theory of human cognition, designed to excel in action planning for complex interactive reasoning tasks. SwiftSage integrates the strengths of behavior cloning and prompting large language models (LLMs) to enhance task completion performance. The framework comprises two primary modules: the Swift module, representing fast and intuitive thinking, and the Sage module, emulating deliberate thought processes. The Swift module is a small encoder-decoder LM fine-tuned on the oracle agent’s action trajectories, while the Sage module employs LLMs such as GPT-4 for subgoal planning and grounding. We develop a heuristic method to harmoniously integrate the two modules, resulting in a more efficient and robust problem-solving process. In 30 tasks from the ScienceWorld benchmark, SwiftSage significantly outperforms other methods such as SayCan, ReAct, and Reflexion, demonstrating its effectiveness in solving complex interactive tasks.


著者 Bill Yuchen Lin,Yicheng Fu,Karina Yang,Faeze Brahman,Shiyu Huang,Chandra Bhagavatula,Prithviraj Ammanabrolu,Yejin Choi,Xiang Ren
発行日 2023-12-06 10:07:01+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.CL, cs.LG, cs.MA, cs.RO パーマリンク