Pre-trained Large Language Models Use Fourier Features to Compute Addition

要約

事前トレーニングされた大規模言語モデル (LLM) は優れた数学的推論能力を示しますが、加算などの基本的な算術をどのように計算するかは依然として不明です。
この論文では、事前トレーニングされた LLM がフーリエ特徴 (周波数領域で疎な特徴セットを介して数値を表す隠れ状態の次元) を使用して数値を加算することを示します。
モデル内では、MLP 層とアテンション層はフーリエ特徴を相補的に使用します。MLP 層は主に低周波特徴を使用して答えの大きさを近似しますが、アテンション層は主に以下を使用してモジュラー加算 (例: 答えが偶数か奇数かを計算) を実行します。
高周波機能。
このメカニズムでは事前トレーニングが非常に重要です。数値を追加するためにゼロからトレーニングされたモデルは、低周波の特徴のみを利用するため、精度が低下します。
ランダムに初期化されたモデルに事前トレーニングされたトークン埋め込みを導入すると、そのパフォーマンスが回復します。
全体として、私たちの分析は、適切な事前トレーニングされた表現 (フーリエ特徴など) が、アルゴリズム タスクの正確なメカニズムを学習するトランスフォーマーの能力を解放できることを示しています。

要約(オリジナル)

Pre-trained large language models (LLMs) exhibit impressive mathematical reasoning capabilities, yet how they compute basic arithmetic, such as addition, remains unclear. This paper shows that pre-trained LLMs add numbers using Fourier features — dimensions in the hidden state that represent numbers via a set of features sparse in the frequency domain. Within the model, MLP and attention layers use Fourier features in complementary ways: MLP layers primarily approximate the magnitude of the answer using low-frequency features, while attention layers primarily perform modular addition (e.g., computing whether the answer is even or odd) using high-frequency features. Pre-training is crucial for this mechanism: models trained from scratch to add numbers only exploit low-frequency features, leading to lower accuracy. Introducing pre-trained token embeddings to a randomly initialized model rescues its performance. Overall, our analysis demonstrates that appropriate pre-trained representations (e.g., Fourier features) can unlock the ability of Transformers to learn precise mechanisms for algorithmic tasks.

arxiv情報

著者 Tianyi Zhou,Deqing Fu,Vatsal Sharan,Robin Jia
発行日 2024-06-05 16:40:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク