Reasoning in Large Language Models Through Symbolic Math Word Problems

要約

大規模言語モデル(LLM)は、ラベル付けされたデータがほとんどない下流のタスクを解決することで、自然言語処理に革命をもたらした。その多才な能力にもかかわらず、推論能力に関する大きな疑問はまだ理解されていない。この論文では、数値問題の記号的バージョンを研究することで、数学の単語問題(MWP)における推論を扱う。我々はSVAMPデータセットの記号版を作成し使用し、GPT-3のdavinci-002モデルが記号MWPにおいても良いゼロショット精度を持つことを発見した。モデルの推論の忠実性を評価するために、精度にとどまらず、最終的な答えと出力された推論の整合性を評価する。LLMに簡潔で検証可能な推論を提供する能力を与え、より解釈しやすくするために、記号的推論と数値的推論との整合を促す自己促しアプローチを探求する。驚くべきことに、セルフプロンプティングは記号的精度も向上させ、数値的精度と記号的精度の両方よりも高くなるため、アンサンブル効果が得られる。SVAMP_Symデータセットは今後の記号計算問題の研究のために公開される予定である。

要約(オリジナル)

Large language models (LLMs) have revolutionized NLP by solving downstream tasks with little to no labeled data. Despite their versatile abilities, the larger question of their ability to reason remains ill-understood. This paper addresses reasoning in math word problems (MWPs) by studying symbolic versions of the numeric problems, since a symbolic expression is a ‘concise explanation’ of the numeric answer. We create and use a symbolic version of the SVAMP dataset and find that GPT-3’s davinci-002 model also has good zero-shot accuracy on symbolic MWPs. To evaluate the faithfulness of the model’s reasoning, we go beyond accuracy and additionally evaluate the alignment between the final answer and the outputted reasoning, which correspond to numeric and symbolic answers respectively for MWPs. We explore a self-prompting approach to encourage the symbolic reasoning to align with the numeric answer, thus equipping the LLM with the ability to provide a concise and verifiable reasoning and making it more interpretable. Surprisingly, self-prompting also improves the symbolic accuracy to be higher than both the numeric and symbolic accuracies, thus providing an ensembling effect. The SVAMP_Sym dataset will be released for future research on symbolic math problems.

arxiv情報

著者 Vedant Gaur,Nikunj Saunshi
発行日 2023-08-03 17:59:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク