One STEP at a time: Language Agents are Stepwise Planners

要約

言語エージェントは、動的な環境で複雑なタスクを実行する有望な適応性を示しています。
ただし、大規模な言語モデルには多用途の知識が組み込まれているにもかかわらず、これらのエージェントは、計画が必要なタスクに関しては依然として不十分です。
STEP は、以前の経験から効率的に学習して、将来のステップでの言語エージェントの計画能力を強化するように設計された新しいフレームワークです。
具体的には、STEP は 4 つの相互接続されたコンポーネントを通じて機能します。
まず、プランナーがタスクを引き受け、それをサブタスクに分割し、関連する洞察を提供します。
次に、実行者はアクションの候補を生成し、評価者はアクションが以前の経験から学習したルールと一致していることを確認します。
最後に、記憶は経験を保存して将来の決定を知らせます。
ScienceWorld ベンチマークでは、STEP が一貫して最先端のモデルを上回っており、総合スコア 67.4 を達成し、18 タスク中 12 タスクを正常に完了していることが結果からわかります。
これらの発見は、言語エージェントの計画機能を強化するフレームワークとしての STEP の可能性を浮き彫りにし、動的環境におけるより高度なタスク解決への道を開きます。

要約(オリジナル)

Language agents have shown promising adaptability in dynamic environments to perform complex tasks. However, despite the versatile knowledge embedded in large language models, these agents still fall short when it comes to tasks that require planning. We introduce STEP, a novel framework designed to efficiently learn from previous experiences to enhance the planning capabilities of language agents in future steps. Concretely, STEP functions through four interconnected components. First, the Planner takes on the task, breaks it down into subtasks and provides relevant insights. Then the Executor generates action candidates, while the Evaluator ensures the actions align with learned rules from previous experiences. Lastly, Memory stores experiences to inform future decisions. In the ScienceWorld benchmark, our results show that STEP consistently outperforms state-of-the-art models, achieving an overall score of 67.4 and successfully completing 12 out of 18 tasks. These findings highlight STEP’s potential as a framework for enhancing planning capabilities in language agents, paving the way for more sophisticated task-solving in dynamic environments.

arxiv情報

著者 Minh Nguyen,Ehsan Shareghi
発行日 2024-11-13 08:32:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク