要約
大規模言語モデル (LLM) は、基本的な数値の理解と処理 (9.11 > 9.9 など) で驚くべき間違いを犯しながらも、ますます多くの複雑な推論タスクを解決できます。
後者の能力は、複雑な算術および数学の問題に取り組むために不可欠であり、ほとんどの推論タスクの基礎として機能しますが、以前の研究ではほとんど注目されなかったか、いくつかの制限されたタスク (整数の加算など) についてのみ説明されていました。
この論文では、LLM の数値理解と処理能力 (NUPA) を包括的に調査します。
まず、4 つの一般的な数値表現と 4 つの主要カテゴリの 17 の異なる数値タスクをカバーするベンチマークを導入し、合計 41 の意味のある組み合わせが得られます。
これらのタスクは初等中等教育のカリキュラムから派生したもので、日常のほぼすべての数値理解と処理シナリオを網羅しており、これらのタスクのルールは非常にシンプルかつ明確です。
ベンチマークを通じて、現在の LLM は多くのタスクで頻繁に失敗することがわかりました。
この問題を研究するために、NUPA を強化するための既存および潜在的な技術 (トークナイザー、PE、数値形式など) を使用して小規模モデルをトレーニングし、テストベッドを使用してそれらの有効性を包括的に評価します。
また、私たちが提案した NUPA タスクで実用規模の LLM を微調整したところ、1) 単純な微調整は、すべてではないが多くのタスクで NUPA を大幅に改善できること、2) 驚くべきことに、NUPA を強化するために設計された手法は、事前トレーニング済みモデルの微調整には効果がないことがわかりました。
思考連鎖手法が NUPA に及ぼす影響をさらに調査します。
私たちの研究は、LLM における NUPA のより詳細かつ包括的な理解を提供します。
私たちのベンチマークとコードは https://github.com/GraphPKU/number_cookbook でリリースされています。
要約(オリジナル)
Large language models (LLMs) can solve an increasing number of complex reasoning tasks while making surprising mistakes in basic numerical understanding and processing (such as 9.11 > 9.9). The latter ability is essential for tackling complex arithmetic and mathematical problems and serves as a foundation for most reasoning tasks, but previous work paid little attention to it or only discussed several restricted tasks (like integer addition). In this paper, we comprehensively investigate the numerical understanding and processing ability (NUPA) of LLMs. Firstly, we introduce a benchmark covering four common numerical representations and 17 distinct numerical tasks in four major categories, resulting in 41 meaningful combinations in total. These tasks are derived from primary and secondary education curricula, encompassing nearly all everyday numerical understanding and processing scenarios, and the rules of these tasks are very simple and clear. Through the benchmark, we find that current LLMs fail frequently in many of the tasks. To study the problem, we train small models with existing and potential techniques for enhancing NUPA (such as tokenizers, PEs, and number formats), comprehensively evaluating their effectiveness using our testbed. We also finetune practical-scale LLMs on our proposed NUPA tasks and find that 1) naive finetuning can improve NUPA a lot on many but not all tasks, and 2) surprisingly, techniques designed to enhance NUPA prove ineffective for finetuning pretrained models. We further explore the impact of chain-of-thought techniques on NUPA. Our work provides a more detailed and comprehensive understanding of NUPA in LLMs. Our benchmark and code are released at https://github.com/GraphPKU/number_cookbook.
arxiv情報
著者 | Haotong Yang,Yi Hu,Shijia Kang,Zhouchen Lin,Muhan Zhang |
発行日 | 2024-12-04 16:39:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google