Can LLMs Solve longer Math Word Problems Better?

要約

数学の文章問題 (MWP) は、大規模言語モデル (LLM) の機能を評価する上で重要な役割を果たしますが、現在の研究は主に簡潔な文脈を持つ質問に焦点を当てています。
より長いコンテキストが数学的推論に及ぼす影響は、依然として十分に調査されていません。
この研究は、拡張されたナラティブで MWP を解決する LLM の能力を指す、Context Length Generalizability (CoLeG) の調査の先駆者です。
我々は、長い物語を特徴とする MWP のコレクションである Extended Grade-School Math (E-GSM) を紹介し、これらの問題に取り組む際の LLM の有効性と回復力を評価するための 2 つの新しい指標を提案します。
独自の LLM とオープンソース LLM を使用した既存のゼロショット プロンプト技術を分析したところ、CoLeG の一般的な欠陥が明らかになりました。
これらの問題を軽減するために、LLM のさまざまなカテゴリに合わせたアプローチを提案します。
独自の LLM については、長いコンテキストの影響を軽減するように設計された新しい指示プロンプトを導入します。
オープンソース LLM については、CoLeG を強化するための微調整のための新しい補助タスクを開発します。
私たちの総合的な結果は、私たちが提案した方法の有効性を実証しており、E-GSM でのパフォーマンスが向上していることを示しています。
さらに、意味的理解の効果と推論の有効性を区別するために詳細な分析を実施し、私たちの方法が後者の効果を改善することを示しています。
また、他のいくつかの MWP ベンチマークにわたってメソッドの一般化可能性も確立します。
私たちの調査結果は、現在の LLM の限界を浮き彫りにし、それに応じた実用的な解決策を提供し、モデルの一般化可能性とトレーニング方法論のさらなる探求への道を開きます。

要約(オリジナル)

Math Word Problems (MWPs) play a vital role in assessing the capabilities of Large Language Models (LLMs), yet current research primarily focuses on questions with concise contexts. The impact of longer contexts on mathematical reasoning remains under-explored. This study pioneers the investigation of Context Length Generalizability (CoLeG), which refers to the ability of LLMs to solve MWPs with extended narratives. We introduce Extended Grade-School Math (E-GSM), a collection of MWPs featuring lengthy narratives, and propose two novel metrics to evaluate the efficacy and resilience of LLMs in tackling these problems. Our analysis of existing zero-shot prompting techniques with proprietary LLMs along with open-source LLMs reveals a general deficiency in CoLeG. To alleviate these issues, we propose tailored approaches for different categories of LLMs. For proprietary LLMs, we introduce a new instructional prompt designed to mitigate the impact of long contexts. For open-source LLMs, we develop a novel auxiliary task for fine-tuning to enhance CoLeG. Our comprehensive results demonstrate the effectiveness of our proposed methods, showing improved performance on E-GSM. Additionally, we conduct an in-depth analysis to differentiate the effects of semantic understanding and reasoning efficacy, showing that our methods improves the latter. We also establish the generalizability of our methods across several other MWP benchmarks. Our findings highlight the limitations of current LLMs and offer practical solutions correspondingly, paving the way for further exploration of model generalizability and training methodologies.

arxiv情報

著者 Xin Xu,Tong Xiao,Zitong Chao,Zhenya Huang,Can Yang,Yang Wang
発行日 2025-01-23 15:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク