Can LLMs Solve longer Math Word Problems Better?

要約

数学の文章問題 (MWP) は、大規模言語モデル (LLM) の機能を評価するために重要であり、現在の研究は主に簡潔な文脈を持つ質問に焦点を当てています。
ただし、現実の数学の問題には複雑な状況が含まれることが多いため、長い MWP を解決する LLM の能力は、これらのシナリオでのアプリケーションにとって不可欠ですが、まだ十分に研究されていません。
この研究は、長い MWP を解決する LLM の能力である Context Length Generalizability (CoLeG) の探求の先駆者です。
長い説明を含む MWP のコレクションである Extended Grade-School Math (E-GSM) を紹介します。
これらの問題を解決する際の LLM の有効性と回復力を評価するために、2 つの新しい指標が提案されています。
既存のゼロショットプロンプト技術と独自のLLMとオープンソースのLLMの両方を調査したところ、CoLeGの一般的な欠陥が明らかになりました。
これらの課題を軽減するために、LLM のさまざまなカテゴリに対して個別のアプローチを提案します。
独自の LLM の場合、長いコンテキストの影響を軽減するために、新しい指示プロンプトが提案されています。
オープンソース LLM の場合、CoLeG を改善するために新しいデータ拡張タスクが開発されます。
私たちの包括的な結果は、私たちが提案した方法の有効性を実証しており、E-GSM でのパフォーマンスの向上だけでなく、他のいくつかの MWP ベンチマーク全体にわたる汎用性も示しています。
私たちの発見は、複雑な現実世界のアプリケーションに LLM を採用する将来の研究への道を開き、現在の制限に対する実用的な解決策を提供し、モデルの一般化可能性とトレーニング方法論をさらに探求する道を開きます。

要約(オリジナル)

Math Word Problems (MWPs) are crucial for evaluating the capability of Large Language Models (LLMs), with current research primarily focusing on questions with concise contexts. However, as real-world math problems often involve complex circumstances, LLMs’ ability to solve long MWPs is vital for their applications in these scenarios, yet remains under-explored. This study pioneers the exploration of Context Length Generalizability (CoLeG), the ability of LLMs to solve long MWPs. We introduce Extended Grade-School Math (E-GSM), a collection of MWPs with lengthy narratives. Two novel metrics are proposed to assess the efficacy and resilience of LLMs in solving these problems. Our examination of existing zero-shot prompting techniques and both proprietary and open-source LLMs reveals a general deficiency in CoLeG. To alleviate these challenges, we propose distinct approaches for different categories of LLMs. For proprietary LLMs, a new instructional prompt is proposed to mitigate the influence of long context. For open-source LLMs, a new data augmentation task is developed to improve CoLeG. Our comprehensive results demonstrate the effectiveness of our proposed methods, showing not only improved performance on E-GSM but also generalizability across several other MWP benchmarks. Our findings pave the way for future research in employing LLMs for complex, real-world applications, offering practical solutions to current limitations and opening avenues for further exploration of model generalizability and training methodologies.

arxiv情報

著者 Xin Xu,Tong Xiao,Zitong Chao,Zhenya Huang,Can Yang,Yang Wang
発行日 2024-05-23 17:13:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク