Least-to-Most Prompting Enables Complex Reasoning in Large Language Models

要約

タイトル:最小限から最大限までの促進により、大規模言語モデルで複雑な推論が可能になる

要約:
– 連鎖的な思考に基づく促進は、様々な自然言語の推論タスクにおいて顕著な性能を示している。
– しかしながら、促し文に示された例題よりも難しい問題を解決する必要があるタスクに対しては、性能が低下する傾向にある。
– そこで、最小限から最大限までの促進という新しい促し戦略を提案する。
– この戦略の主なアイデアは、複雑な問題を一連のより単純なサブ問題に分解し、それらを順次解決することである。
– 各サブ問題を解決するためには、これまで解決したサブ問題の答えが役立つ。
– シンボリック操作、合成一般化、数学的推論に関連するタスクにおける実験結果は、最小限から最大限までの促進が、促し文に示された問題よりも困難な問題に対して一般化できることを示している。
– 特に、GPT-3コード-davinci-002モデルを最小限から最大限までの促し文とともに使用すると、わずか14個の例題で、合成一般化のベンチマークであるSCANを任意の分割(長さ分割を含む)で少なくとも99%の精度で解決できることがわかった。
– これは特に注目に値することである。文献中のニューラルシンボリックモデルは、15,000以上の例を含むすべてのトレーニングセットでトレーニングされているためである。
– すべてのタスクの促し文は、付録に含まれている。

要約(オリジナル)

Chain-of-thought prompting has demonstrated remarkable performance on various natural language reasoning tasks. However, it tends to perform poorly on tasks which requires solving problems harder than the exemplars shown in the prompts. To overcome this challenge of easy-to-hard generalization, we propose a novel prompting strategy, least-to-most prompting. The key idea in this strategy is to break down a complex problem into a series of simpler subproblems and then solve them in sequence. Solving each subproblem is facilitated by the answers to previously solved subproblems. Our experimental results on tasks related to symbolic manipulation, compositional generalization, and math reasoning reveal that least-to-most prompting is capable of generalizing to more difficult problems than those seen in the prompts. A notable finding is that when the GPT-3 code-davinci-002 model is used with least-to-most prompting, it can solve the compositional generalization benchmark SCAN in any split (including length split) with an accuracy of at least 99% using just 14 exemplars, compared to only 16% accuracy with chain-of-thought prompting. This is particularly noteworthy because neural-symbolic models in the literature that specialize in solving SCAN are trained on the entire training set containing over 15,000 examples. We have included prompts for all the tasks in the Appendix.

arxiv情報

著者 Denny Zhou,Nathanael Schärli,Le Hou,Jason Wei,Nathan Scales,Xuezhi Wang,Dale Schuurmans,Claire Cui,Olivier Bousquet,Quoc Le,Ed Chi
発行日 2023-04-16 22:08:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク