要約
最近の大規模な言語モデルの新たな計算能力と問題解決能力をより深く理解することは、言語モデルをさらに改善し、適用範囲を広げるために最も重要です。
この研究では、次のトークンを予測するようにトレーニングされた言語モデルが、トレーニング データを超えて一般化する算術計算をどのように実行できるかを調査します。
バイナリの加算と乗算は、非常に少ない語彙を必要とし、関連する入出力の不連続性があり、新しいデータに対してスムーズな入力補間が無効になるため、この目的に適したテストベッドを構成します。
私たちは、これらのタスクを学習するライト ランゲージ モデルのトレーニングに成功し、外挿機能と内部情報処理を調査するために多くの実験を実行しました。
私たちの調査結果は、言語モデルが、入力トークン表現が適切な内部表現にマッピングされると、値空間で計算が行われるエンコーディング – 回帰 – デコーディング マシンとして機能するという仮説を裏付けています。
要約(オリジナル)
A better understanding of the emergent computation and problem-solving capabilities of recent large language models is of paramount importance to further improve them and broaden their applicability. This work investigates how a language model, trained to predict the next token, can perform arithmetic computations generalizing beyond training data. Binary addition and multiplication constitute a good testbed for this purpose, since they require a very small vocabulary and exhibit relevant input/output discontinuities making smooth input interpolation ineffective for novel data. We successfully trained a light language model to learn these tasks and ran a number of experiments to investigate the extrapolation capabilities and internal information processing. Our findings support the hypothesis that the language model works as an Encoding-Regression-Decoding machine where the computation takes place in the value space once the input token representation is mapped to an appropriate internal representation.
arxiv情報
著者 | Davide Maltoni,Matteo Ferrara |
発行日 | 2024-03-06 09:39:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google