要約
数学の文章問題 (MWP) は、大規模言語モデル (LLM) の機能を評価するために重要であり、現在の研究は主に簡潔な文脈を持つ質問に焦点を当てています。
ただし、現実の数学の問題には複雑な状況が含まれることが多いため、長い MWP を解決する LLM の能力は、これらのシナリオでのアプリケーションにとって不可欠ですが、まだ十分に研究されていません。
この研究は、長い MWP を解決する LLM の能力である Context Length Generalizability (CoLeG) の探求の先駆者です。
長い説明を含む MWP のコレクションである Extended Grade-School Math (E-GSM) を紹介します。
これらの問題を解決する際の LLM の有効性と回復力を評価するために、2 つの新しい指標が提案されています。
既存のゼロショットプロンプト技術と独自のLLMとオープンソースのLLMの両方を調査したところ、CoLeGの一般的な欠陥が明らかになりました。
これらの課題を軽減するために、LLM のさまざまなカテゴリに対して個別のアプローチを提案します。
独自の LLM の場合、長いコンテキストの影響を軽減するために、新しい指示プロンプトが提案されています。
オープンソース LLM の場合、CoLeG を改善するために新しいデータ拡張タスクが開発されます。
私たちの包括的な結果は、私たちが提案した方法の有効性を実証しており、E-GSM でのパフォーマンスの向上だけでなく、他のいくつかの MWP ベンチマーク全体にわたる汎用性も示しています。
私たちの発見は、複雑な現実世界のアプリケーションに LLM を採用する将来の研究への道を開き、現在の制限に対する実用的な解決策を提供し、モデルの一般化可能性とトレーニング方法論をさらに探求する道を開きます。
要約(オリジナル)
Math Word Problems (MWPs) are crucial for evaluating the capability of Large Language Models (LLMs), with current research primarily focusing on questions with concise contexts. However, as real-world math problems often involve complex circumstances, LLMs’ ability to solve long MWPs is vital for their applications in these scenarios, yet remains under-explored. This study pioneers the exploration of Context Length Generalizability (CoLeG), the ability of LLMs to solve long MWPs. We introduce Extended Grade-School Math (E-GSM), a collection of MWPs with lengthy narratives. Two novel metrics are proposed to assess the efficacy and resilience of LLMs in solving these problems. Our examination of existing zero-shot prompting techniques and both proprietary and open-source LLMs reveals a general deficiency in CoLeG. To alleviate these challenges, we propose distinct approaches for different categories of LLMs. For proprietary LLMs, a new instructional prompt is proposed to mitigate the influence of long context. For open-source LLMs, a new data augmentation task is developed to improve CoLeG. Our comprehensive results demonstrate the effectiveness of our proposed methods, showing not only improved performance on E-GSM but also generalizability across several other MWP benchmarks. Our findings pave the way for future research in employing LLMs for complex, real-world applications, offering practical solutions to current limitations and opening avenues for further exploration of model generalizability and training methodologies.
arxiv情報
著者 | Xin Xu,Tong Xiao,Zitong Chao,Zhenya Huang,Can Yang,Yang Wang |
発行日 | 2024-05-23 17:13:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google