要約
大規模言語モデル (LLM) は、さまざまな意思決定タスクで優れたパフォーマンスを示していますが、単純な動作プロセスに依存しており、自律エージェントとして広範に展開するには至っていません。
計画、実行、および推論における LLM の機能を相乗させる一般的なフレームワークである LATS (Language Agent Tree Search) を紹介します。
モデルベースの強化学習におけるモンテカルロ木探索からインスピレーションを得た LATS は、エージェント、価値関数、オプティマイザーとして LLM を採用し、その潜在的な強みを意思決定の強化に再利用します。
この方法で重要なのは、外部フィードバックのための環境を使用することです。これにより、既存の技術の制限を超えた、より意図的で適応的な問題解決メカニズムが提供されます。
プログラミング、HotPotQA、WebShop などのさまざまな領域にわたる実験的な評価は、推論と動作の両方に対する LATS の適用可能性を示しています。
特に、LATS は、GPT-4 を使用した HumanEval でのプログラミングで 94.4% を達成し、GPT-3.5 での WebShop での Web ブラウジングで平均スコア 75.9 を達成し、私たちの方法の有効性と汎用性を実証しました。
要約(オリジナル)
While large language models (LLMs) have demonstrated impressive performance on a range of decision-making tasks, they rely on simple acting processes and fall short of broad deployment as autonomous agents. We introduce LATS (Language Agent Tree Search), a general framework that synergizes the capabilities of LLMs in planning, acting, and reasoning. Drawing inspiration from Monte Carlo tree search in model-based reinforcement learning, LATS employs LLMs as agents, value functions, and optimizers, repurposing their latent strengths for enhanced decision-making. What is crucial in this method is the use of an environment for external feedback, which offers a more deliberate and adaptive problem-solving mechanism that moves beyond the limitations of existing techniques. Our experimental evaluation across diverse domains, such as programming, HotPotQA, and WebShop, illustrates the applicability of LATS for both reasoning and acting. In particular, LATS achieves 94.4% for programming on HumanEval with GPT-4 and an average score of 75.9 for web browsing on WebShop with GPT-3.5, demonstrating the effectiveness and generality of our method.
arxiv情報
著者 | Andy Zhou,Kai Yan,Michal Shlapentokh-Rothman,Haohan Wang,Yu-Xiong Wang |
発行日 | 2023-12-05 05:25:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google