要約
意思決定を行う大規模言語モデル (LLM) エージェントの最近の進歩は、さまざまなベンチマークで印象的なパフォーマンスを示しています。
ただし、これらの最先端のアプローチでは通常、内部モデルの微調整、外部モデルの微調整、または定義された状態空間に対するポリシーの最適化が必要です。
これらのメソッドの実装は、高品質のトレーニング データが不足していたり、明確に定義された状態空間が不足していたりするため、困難な場合があります。
さらに、これらのエージェントは、人間の意思決定プロセスに固有の特定の資質、特に間違いから学ぶ能力を持っていません。
自己反省により、人間は試行錯誤のプロセスを通じて新しい問題を効率的に解決できます。
最近の研究に基づいて、エージェントに動的記憶と内省能力を与え、既存の推論トレースとタスク固有の行動選択能力を強化するアプローチである Reflexion を提案します。
完全な自動化を実現するために、エージェントが幻覚インスタンスを特定し、アクションシーケンスの繰り返しを回避し、一部の環境では、特定の環境の内部メモリマップを構築できるようにする、簡単で効果的なヒューリスティックを導入します。
私たちのアプローチを評価するために、AlfWorld 環境で意思決定タスクを完了するエージェントの能力と、HotPotQA 環境で知識集約型の検索ベースの質問と回答のタスクを完了するエージェントの能力を評価します。
それぞれ 97% と 51% の成功率を観察し、内省の新たな特性についての議論を提供します。
要約(オリジナル)
Recent advancements in decision-making large language model (LLM) agents have demonstrated impressive performance across various benchmarks. However, these state-of-the-art approaches typically necessitate internal model fine-tuning, external model fine-tuning, or policy optimization over a defined state space. Implementing these methods can prove challenging due to the scarcity of high-quality training data or the lack of well-defined state space. Moreover, these agents do not possess certain qualities inherent to human decision-making processes, specifically the ability to learn from mistakes. Self-reflection allows humans to efficiently solve novel problems through a process of trial and error. Building on recent research, we propose Reflexion, an approach that endows an agent with dynamic memory and self-reflection capabilities to enhance its existing reasoning trace and task-specific action choice abilities. To achieve full automation, we introduce a straightforward yet effective heuristic that enables the agent to pinpoint hallucination instances, avoid repetition in action sequences, and, in some environments, construct an internal memory map of the given environment. To assess our approach, we evaluate the agent’s ability to complete decision-making tasks in AlfWorld environments and knowledge-intensive, search-based question-and-answer tasks in HotPotQA environments. We observe success rates of 97% and 51%, respectively, and provide a discussion on the emergent property of self-reflection.
arxiv情報
著者 | Noah Shinn,Beck Labash,Ashwin Gopinath |
発行日 | 2023-03-20 18:08:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google