Arithmetic with Language Models: from Memorization to Computation

要約

最近の大規模言語モデルの創発的な計算能力と問題解決能力をよりよく理解することは、それらをさらに改善し、適用範囲を広げるために最も重要である。本研究では、次のトークンを予測するように学習された言語モデルが、学習データを超えて汎化された算術計算をどのように実行できるかを調べる。二進法の足し算と掛け算は、非常に小さな語彙を必要とし、関連する入出力の不連続性を示すため、新しいデータに対して滑らかな入力補間が有効でないため、この目的のための良いテストベッドとなる。我々は、これらのタスクを学習するための軽い言語モデルの学習に成功し、外挿能力と内部情報処理を調べるために多くの実験を行った。その結果、言語モデルは、入力トークン表現が適切な内部表現にマッピングされると、計算が値空間で行われるエンコード-回帰-デコードマシンとして働くという仮説を支持する結果が得られた。

要約(オリジナル)

A better understanding of the emergent computation and problem-solving capabilities of recent large language models is of paramount importance to further improve them and broaden their applicability. This work investigates how a language model, trained to predict the next token, can perform arithmetic computations generalizing beyond training data. Binary addition and multiplication constitute a good testbed for this purpose, since they require a very small vocabulary and exhibit relevant input/output discontinuities making smooth input interpolation ineffective for novel data. We successfully trained a light language model to learn these tasks and ran a number of experiments to investigate the extrapolation capabilities and internal information processing. Our findings support the hypothesis that the language model works as an Encoding-Regression-Decoding machine where the computation takes place in the value space once the input token representation is mapped to an appropriate internal representation.

arxiv情報

著者 Davide Maltoni,Matteo Ferrara
発行日 2024-08-02 12:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク