StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving

要約

既存のプロンプト手法のほとんどは、他のインスタンスには適用できないインスタンス固有のソリューションに依存することが多く、選択された数ショットのサンプル間でタスク レベルの一貫性が欠けているため、一般化性と一貫性の問題に悩まされています。
これらの制限に対処するために、私たちは包括的なフレームワークである StrategyLLM を提案します。これにより、LLM は帰納的推論を実行して特定のタスク インスタンスから一般的な戦略を導き出し、演繹的推論を実行してこれらの一般的な戦略を特定のタスクの例に適用して、一般化可能で一貫性のある少数ショット プロンプトを構築できます。

これは、戦略ジェネレーター、エグゼキューター、オプティマイザー、エバリュエーターという 4 つの LLM ベースのエージェントを採用しており、連携して特定のタスクに対して有望な戦略を生成、評価、選択します。
実験結果は、StrategyLLM が、数学的推論 (34.2\% $\rightarrow$ 38.8\%)、常識的推論 (70.3\%) など、人間の介入なしで 4 つの困難なタスクにわたる 13 のデータセットに対する人間による注釈付きソリューションを必要とする競合ベースライン CoT-SC よりも優れていることを示しています。
% $\rightarrow$ 72.5\%)、アルゴリズム推論 (73.7\% $\rightarrow$ 85.0\%)、および記号推論 (30.0\% $\rightarrow$ 79.2\%)。
さらに分析すると、StrategyLLM がさまざまな LLM に適用できることが明らかになり、多数のシナリオにわたる利点が実証されています。

要約(オリジナル)

Most existing prompting methods suffer from the issues of generalizability and consistency, as they often rely on instance-specific solutions that may not be applicable to other instances and lack task-level consistency across the selected few-shot examples. To address these limitations, we propose a comprehensive framework, StrategyLLM, allowing LLMs to perform inductive reasoning, deriving general strategies from specific task instances, and deductive reasoning, applying these general strategies to particular task examples, for constructing generalizable and consistent few-shot prompts. It employs four LLM-based agents: strategy generator, executor, optimizer, and evaluator, working together to generate, evaluate, and select promising strategies for a given task. Experimental results demonstrate that StrategyLLM outperforms the competitive baseline CoT-SC that requires human-annotated solutions on 13 datasets across 4 challenging tasks without human involvement, including math reasoning (34.2\% $\rightarrow$ 38.8\%), commonsense reasoning (70.3\% $\rightarrow$ 72.5\%), algorithmic reasoning (73.7\% $\rightarrow$ 85.0\%), and symbolic reasoning (30.0\% $\rightarrow$ 79.2\%). Further analysis reveals that StrategyLLM is applicable to various LLMs and demonstrates advantages across numerous scenarios.

arxiv情報

著者 Chang Gao,Haiyun Jiang,Deng Cai,Shuming Shi,Wai Lam
発行日 2024-05-24 13:55:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク