When is Tree Search Useful for LLM Planning? It Depends on the Discriminator

要約

この論文では、ジェネレーター、ディスクリミネーター、計画メソッドという 3 つのコンポーネントを備えた言語エージェント フレームワークの下で、大規模言語モデル (LLM) がどのようにして複数ステップの問題を解決するかを検証します。
私たちは、反復補正とツリー検索という 2 つの高度な計画手法の実用性を調査します。
これら 2 つの方法、またはより単純な方法である再ランキングを使用した場合に、識別精度がエージェントの全体的なパフォーマンスにどのような影響を与えるかについての包括的な分析を示します。
テキストから SQL への解析と数学的推論という 2 つのタスクに関する実験では、次のことがわかります。(1) 高度な計画手法では、再ランキングよりも大幅な改善を達成するには、少なくとも 90% の精度を持つ識別子が必要です。
(2) 現在の LLM の識別能力は、そのような改善を達成するための高度な計画手法のニーズを満たしていません。
(3) LLM ベースの識別子を使用する場合、高度な計画手法では精度と効率のバランスが適切に取れない可能性があります。
たとえば、他の 2 つの方法と比較すると、ツリー検索は少なくとも 10 ~ 20 倍遅いですが、パフォーマンスの向上は無視できる程度であり、実際のアプリケーションの妨げとなります。
コードとデータは https://github.com/OSU-NLP-Group/llm-planning-eval で入手できます。

要約(オリジナル)

In this paper, we examine how large language models (LLMs) solve multi-step problems under a language agent framework with three components: a generator, a discriminator, and a planning method. We investigate the practical utility of two advanced planning methods, iterative correction and tree search. We present a comprehensive analysis of how discrimination accuracy affects the overall performance of agents when using these two methods or a simpler method, re-ranking. Experiments on two tasks, text-to-SQL parsing and mathematical reasoning, show that: (1) advanced planning methods demand discriminators with at least 90% accuracy to achieve significant improvements over re-ranking; (2) current LLMs’ discrimination abilities have not met the needs of advanced planning methods to achieve such improvements; (3) with LLM-based discriminators, advanced planning methods may not adequately balance accuracy and efficiency. For example, compared to the other two methods, tree search is at least 10–20 times slower but leads to negligible performance gains, which hinders its real-world applications. Code and data are available at https://github.com/OSU-NLP-Group/llm-planning-eval.

arxiv情報

著者 Ziru Chen,Michael White,Raymond Mooney,Ali Payani,Yu Su,Huan Sun
発行日 2024-06-06 14:55:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク