要約
GPT-4 や PaLM-2 などの大規模言語モデル (LLM) における最近の進歩により、数学的推論の問題への対処に大きな進歩がもたらされました。
特に、GPT-4 コード インタープリターとして知られる OpenAI の GPT-4 の最新バージョンは、困難な数学データセットに対して顕著なパフォーマンスを示します。
この論文では、GPT-4 コードインタープリタの \textit{コード使用頻度} にさまざまな制約を導入することによって、LLM の推論能力を強化するコードの効果を調査します。
その成功は、コードの生成と実行、コード実行の出力の評価、および不当な出力を受け取った場合の解決策の修正における強力なスキルに主に起因していることがわかりました。
この洞察に基づいて、GPT の数学的推論の可能性をさらに高めるために、新規で効果的なプロンプト手法である明示的な \uline{c}ode-based \uline{s}elf-\uline{v}erification~(CSV) を提案します。
-4 コードインタープリタ。
この方法では、GPT-4 コード インタープリターでゼロショット プロンプトを使用して、コードを使用して答えを自己検証することを奨励します。
検証状態が「False」として記録される場合、数学の試験中にエラーを修正するアプローチと同様に、モデルはその解を自動的に修正します。
さらに、検証結果の状態は解決策の信頼性を示し、多数決の有効性を向上させることができると認識しています。
GPT-4 コード インタープリターと CSV を使用すると、MATH データセット \textbf{(53.9\% $\to$ 84.3\%)} で優れたゼロショット精度を達成できます。
要約(オリジナル)
Recent progress in large language models (LLMs) like GPT-4 and PaLM-2 has brought significant advancements in addressing math reasoning problems. In particular, OpenAI’s latest version of GPT-4, known as GPT-4 Code Interpreter, shows remarkable performance on challenging math datasets. In this paper, we explore the effect of code on enhancing LLMs’ reasoning capability by introducing different constraints on the \textit{Code Usage Frequency} of GPT-4 Code Interpreter. We found that its success can be largely attributed to its powerful skills in generating and executing code, evaluating the output of code execution, and rectifying its solution when receiving unreasonable outputs. Based on this insight, we propose a novel and effective prompting method, explicit \uline{c}ode-based \uline{s}elf-\uline{v}erification~(CSV), to further boost the mathematical reasoning potential of GPT-4 Code Interpreter. This method employs a zero-shot prompt on GPT-4 Code Interpreter to encourage it to use code to self-verify its answers. In instances where the verification state registers as “False”, the model shall automatically amend its solution, analogous to our approach of rectifying errors during a mathematics examination. Furthermore, we recognize that the states of the verification result indicate the confidence of a solution, which can improve the effectiveness of majority voting. With GPT-4 Code Interpreter and CSV, we achieve an impressive zero-shot accuracy on MATH dataset \textbf{(53.9\% $\to$ 84.3\%)}.
arxiv情報
著者 | Aojun Zhou,Ke Wang,Zimu Lu,Weikang Shi,Sichun Luo,Zipeng Qin,Shaoqing Lu,Anya Jia,Linqi Song,Mingjie Zhan,Hongsheng Li |
発行日 | 2023-08-15 17:58:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google