要約
Transformer ベースの大規模言語モデル (LLM) はさまざまな分野で目覚ましい成功を収めていますが、その数学的機能を理解して強化することは依然として大きな課題です。
この論文では、特に算術性能に焦点を当てて、LLM の数学的能力について厳密な理論分析を行います。
私たちは、数学的タスクにおける有効性に影響を与える重要な要素として数値精度を特定します。
私たちの結果は、モデルのサイズが入力長に対して超多項式に大きくならない限り、低い数値精度で動作する Transformer は反復加算や整数乗算などの算術タスクに対処できないことを示しています。
対照的に、標準の数値精度を備えた Transformer は、大幅に小さいモデル サイズでこれらのタスクを効率的に処理できます。
さらに、さまざまな数値精度が算術タスクに及ぼす影響を調査する実証実験を通じて理論的発見を裏付け、LLM の数学的推論能力を向上させるための貴重な洞察を提供します。
要約(オリジナル)
Despite the remarkable success of Transformer-based Large Language Models (LLMs) across various domains, understanding and enhancing their mathematical capabilities remains a significant challenge. In this paper, we conduct a rigorous theoretical analysis of LLMs’ mathematical abilities, with a specific focus on their arithmetic performances. We identify numerical precision as a key factor that influences their effectiveness in mathematical tasks. Our results show that Transformers operating with low numerical precision fail to address arithmetic tasks, such as iterated addition and integer multiplication, unless the model size grows super-polynomially with respect to the input length. In contrast, Transformers with standard numerical precision can efficiently handle these tasks with significantly smaller model sizes. We further support our theoretical findings through empirical experiments that explore the impact of varying numerical precision on arithmetic tasks, providing valuable insights for improving the mathematical reasoning capabilities of LLMs.
arxiv情報
著者 | Guhao Feng,Kai Yang,Yuntian Gu,Xinyue Ai,Shengjie Luo,Jiacheng Sun,Di He,Zhenguo Li,Liwei Wang |
発行日 | 2024-10-17 17:59:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google