要約
【タイトル】Plan-and-Solve Prompting: Large Language Modelsによるゼロショット思考の連鎖推論能力の改善
【要約】
– LLM(大規模言語モデル)は、最近の多様なNLPタスクにおいて印象的なパフォーマンスを発揮した。しかし、多段階の推論タスクを解決するためには、手動で構成されたstep-by-step推論例を含むfew-shot chain-of-thought(CoT)によって行う必要がある。
– Zero-shot-CoTは、ターゲットの問題文に「段階的に考える」という入力プロンプトを結合することで、手動的な試行錯誤を排除して生成された推論ステップの質を向上させた。しかし、計算エラー、欠落エラー、意味理解エラーがあるため、利用には課題がある。
– 著者たちはPlan-and-Solve(PS)プロンプトの提案によって、通常不足する推論ステップエラーを解決する。PSは二つのコンポーネントで構成されており、大きなタスクを小さなサブタスクに分割し、計画に従って実施することが第一である。計算エラーの解決及び推論ステップの生成の質を改善するために、より詳細な指示の提供といったPS+プロンプトの構築を行っている。
– 以上のPS promptingによって、3つの思考タスクにおいて10つの異なるデータセットを用いた評価実験を行った。その結果、提案するゼロショット・プロンプトは、オリジナルのZero-shot-CoTを超え、Zero-shot-Program-of-Thought Promptingを比較しても同等以上のパフォーマンスを発揮し、数回の推論プロンプトによる対数的な改善が見られた。数学的推論問題においても、8-shotのCoT promptingと比較して同等のパフォーマンスを示した。プロンプトのコードは、 https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting から見ることができる。
要約(オリジナル)
Large language models (LLMs) have recently been shown to deliver impressive performance in various NLP tasks. To tackle multi-step reasoning tasks, few-shot chain-of-thought (CoT) prompting includes a few manually crafted step-by-step reasoning demonstrations which enable LLMs to explicitly generate reasoning steps and improve their reasoning task accuracy. To eliminate the manual effort, Zero-shot-CoT concatenates the target problem statement with ‘Let’s think step by step’ as an input prompt to LLMs. Despite the success of Zero-shot-CoT, it still suffers from three pitfalls: calculation errors, missing-step errors, and semantic misunderstanding errors. To address the missing-step errors, we propose Plan-and-Solve (PS) Prompting. It consists of two components: first, devising a plan to divide the entire task into smaller subtasks, and then carrying out the subtasks according to the plan. To address the calculation errors and improve the quality of generated reasoning steps, we extend PS prompting with more detailed instructions and derive PS+ prompting. We evaluate our proposed prompting strategy on ten datasets across three reasoning problems. The experimental results over GPT-3 show that our proposed zero-shot prompting consistently outperforms Zero-shot-CoT across all datasets by a large margin, is comparable to or exceeds Zero-shot-Program-of-Thought Prompting, and has comparable performance with 8-shot CoT prompting on the math reasoning problem. The code can be found at https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
arxiv情報
著者 | Lei Wang,Wanyu Xu,Yihuai Lan,Zhiqiang Hu,Yunshi Lan,Roy Ka-Wei Lee,Ee-Peng Lim |
発行日 | 2023-05-06 16:34:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI