要約
大規模言語モデル (LLM) は、さまざまなタスクにおいて優れた能力を示していますが、数学的問題に関する内部メカニズムはまだ解明されていません。
この論文では、言語モデルが数学の基本要素である数値の値をどのようにエンコードするかという基本的な問題を研究します。
この疑問を研究するために、加算問題を含む合成データセットを構築し、線形プローブを利用して隠れ状態から入力数値を読み取ります。
実験結果は、さまざまな層の LLM にエンコードされた数値が存在することを裏付けており、これらの値は線形プローブを介して抽出できます。
さらなる実験では、LLM が同様の方法で計算結果を保存し、単純なベクトル加算を介して出力に介入できることが示され、エンコードされた数値と言語モデルの出力の間の因果関係が証明されました。
私たちの研究は、LLM が数値の値を線形にエンコードしているという証拠を提供し、LLM の数値情報をより適切に探索、設計、利用するための洞察を提供します。
要約(オリジナル)
Large language models (LLMs) have exhibited impressive competence in various tasks, but their internal mechanisms on mathematical problems are still under-explored. In this paper, we study a fundamental question: how language models encode the value of numbers, a basic element in math. To study the question, we construct a synthetic dataset comprising addition problems and utilize linear probes to read out input numbers from the hidden states. Experimental results support the existence of encoded number values in LLMs on different layers, and these values can be extracted via linear probes. Further experiments show that LLMs store their calculation results in a similar manner, and we can intervene the output via simple vector additions, proving the causal connection between encoded numbers and language model outputs. Our research provides evidence that LLMs encode the value of numbers linearly, offering insights for better exploring, designing, and utilizing numeric information in LLMs.
arxiv情報
著者 | Fangwei Zhu,Damai Dai,Zhifang Sui |
発行日 | 2024-11-14 06:42:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google