Assessing the Impact of Prompting Methods on ChatGPT’s Mathematical Capabilities

要約

この研究では、大規模言語モデル (LLM) の数学的推論能力を強化するプロンプト手法の有効性を批判的に評価しています。
この調査では、LLM の言語タスクを強化する効果があることで知られる、シンプル、ペルソナ、および会話型プロンプトの 3 つの規範的なプロンプト方法が使用されます。
この分析は、OpenAI の LLM チャットボットである ChatGPT-3.5 上で、MATH、GSM8K、および MMLU データセットからの広範な問題セットに対して実行され、広範な数学的課題を網羅しています。
各データセットに適合したグレーディング スクリプトを使用して、モデルの数学的分析能力を強化する際のこれらの促進介入の有効性を判断します。
予想に反して、私たちの経験的分析により、調査された方法のいずれも ChatGPT-3.5 のベースライン パフォーマンスを一貫して改善するものはなく、一部の方法は重大な低下を引き起こすことが明らかになりました。
私たちの調査結果は、プロンプト戦略が必ずしも新しい領域に一般化されるわけではなく、この研究では数学的パフォーマンスを向上させることができないことを示唆しています。

要約(オリジナル)

This study critically evaluates the efficacy of prompting methods in enhancing the mathematical reasoning capability of large language models (LLMs). The investigation uses three prescriptive prompting methods – simple, persona, and conversational prompting – known for their effectiveness in enhancing the linguistic tasks of LLMs. We conduct this analysis on OpenAI’s LLM chatbot, ChatGPT-3.5, on extensive problem sets from the MATH, GSM8K, and MMLU datasets, encompassing a broad spectrum of mathematical challenges. A grading script adapted to each dataset is used to determine the effectiveness of these prompting interventions in enhancing the model’s mathematical analysis power. Contrary to expectations, our empirical analysis reveals that none of the investigated methods consistently improves over ChatGPT-3.5’s baseline performance, with some causing significant degradation. Our findings suggest that prompting strategies do not necessarily generalize to new domains, in this study failing to enhance mathematical performance.

arxiv情報

著者 Yuhao Chen,Chloe Wong,Hanwen Yang,Juan Aguenza,Sai Bhujangari,Benthan Vu,Xun Lei,Amisha Prasad,Manny Fluss,Eric Phuong,Minghao Liu,Raja Kumar,Vanshika Vats,James Davis
発行日 2024-02-20 18:44:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク