要約
思考連鎖 (CoT) は、数学の問題解決の推論において重要な役割を果たします。
従来の自然言語CoTと自己記述プログラム、コメント記述プログラム、非記述プログラムなどの各種プログラムCoTを比較し、CoTの設計手法を総合的に検討します。
さらに、PythonとWolfram言語を比較して、プログラムCoTに対するプログラミング言語の影響を調査します。
GSM8K、MATHQA、および SVAMP に関する広範な実験を通じて、プログラム CoT が数学の問題解決において優れた効果を発揮することが多いことがわかりました。
特に、30B パラメーターを使用した最高のパフォーマンスの組み合わせは、GPT-3.5-turbo を大幅に上回っています。
結果は、自己記述型プログラムのほうが多様性が高く、一般的により高いパフォーマンスを達成できることを示しています。
また、プログラムのCoTに関しては、WolframよりもPythonの方が良い言語選択であることが分かりました。
実験結果は、さらなる進歩のためにプログラミング言語とコーディング スタイルの両方を考慮した将来の CoT 設計のための貴重なガイドラインを提供します。
私たちのデータセットとコードは公開されています。
要約(オリジナル)
Chain-of-Thought (CoT) plays a crucial role in reasoning for math problem solving. We conduct a comprehensive examination of methods for designing CoT, comparing conventional natural language CoT with various program CoTs, including the self-describing program, the comment-describing program, and the non-describing program. Furthermore, we investigate the impact of programming language on program CoTs, comparing Python and Wolfram Language. Through extensive experiments on GSM8K, MATHQA, and SVAMP, we find that program CoTs often have superior effectiveness in math problem solving. Notably, the best performing combination with 30B parameters beats GPT-3.5-turbo by a significant margin. The results show that self-describing program offers greater diversity and thus can generally achieve higher performance. We also find that Python is a better choice of language than Wolfram for program CoTs. The experimental results provide a valuable guideline for future CoT designs that take into account both programming language and coding style for further advancements. Our datasets and code are publicly available.
arxiv情報
著者 | Zhanming Jie,Trung Quoc Luong,Xinbo Zhang,Xiaoran Jin,Hang Li |
発行日 | 2023-09-20 04:17:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google