要約
大規模言語モデル(LLM)は、数学的推論問題の解を以下の形式で生成するために一般的に使用される:自然言語、コード、またはその両方の組み合わせである。本論文では、GPT-4o-miniとLLama-3.1-8b-Turboを含む最先端のLLMを用いて、自然言語とコードを用いた数学的推論問題の解法に関する基本的な問題を探求する。その結果、LLMはコードに比べて自然言語による推論が得意であることがわかった。さらに、自然言語とコードは補完的な推論形式として機能するが、特定のシナリオでは互いに悪影響を及ぼす可能性がある。これらの洞察は、LLMを活用して最も適切な推論形式を動的に選択し、GPT-4o-miniと比較可能なベースラインよりもパフォーマンスを向上させる、新しいプロンプト手法INC-Mathの開発の動機付けとなった。
要約(オリジナル)
Large Language Models (LLMs) are commonly used to generate solutions for mathematical reasoning problems in the following formats: natural language, code, or a combination of both. In this paper, we explore fundamental questions related to solving mathematical reasoning problems using natural language and code with state-of-the-art LLMs, including GPT-4o-mini and LLama-3.1-8b-Turbo. Our findings show that LLMs are better at reasoning in natural language compared to code. Additionally, although natural language and code serve as complementary forms of reasoning, they can affect each other in a negative way in certain scenarios. These insights motivate our development of a new prompting method, INC-Math, which leverages an LLM to dynamically select the most appropriate reasoning form, resulting in improved performance over comparable baselines with GPT-4o-mini.
arxiv情報
著者 | Xuyuan Xiong,Simeng Han,Ziyue Zhou,Arman Cohan |
発行日 | 2024-11-01 14:51:38+00:00 |
arxivサイト | arxiv_id(pdf) |