要約
トランスフォーマーは、自然言語処理と機械学習に革命をもたらしたニューラルネットワークである。自己アテンションと呼ばれるメカニズムを使い、単語のような入力シーケンスを処理する。MLMでは、入力シーケンスの単語がランダムにマスクされ、ネットワークは欠落した単語を予測するように学習される。変換器の実用的な成功にもかかわらず、自己注意がどのような種類のデータ分布を効率的に学習できるかは不明なままである。ここでは、単語の位置と埋め込みを切り離すと、自己注意の単一層が、サイトとポッツカラーの間の相互作用を持つ一般化ポッツモデルの条件式を学習することを解析的に示す。さらに、このニューラルネットワークを学習することは、統計物理学でよく知られている、いわゆる擬似尤度法によって逆ポッツ問題を解くことと全く等価であることを示す。この写像を用いて、モデルシナリオにおける自己注意の汎化誤差をレプリカ法を用いて解析的に計算する。
要約(オリジナル)
Transformers are neural networks that revolutionized natural language processing and machine learning. They process sequences of inputs, like words, using a mechanism called self-attention, which is trained via masked language modeling (MLM). In MLM, a word is randomly masked in an input sequence, and the network is trained to predict the missing word. Despite the practical success of transformers, it remains unclear what type of data distribution self-attention can learn efficiently. Here, we show analytically that if one decouples the treatment of word positions and embeddings, a single layer of self-attention learns the conditionals of a generalized Potts model with interactions between sites and Potts colors. Moreover, we show that training this neural network is exactly equivalent to solving the inverse Potts problem by the so-called pseudo-likelihood method, well known in statistical physics. Using this mapping, we compute the generalization error of self-attention in a model scenario analytically using the replica method.
arxiv情報
著者 | Riccardo Rende,Federica Gerace,Alessandro Laio,Sebastian Goldt |
発行日 | 2024-04-04 13:24:36+00:00 |
arxivサイト | arxiv_id(pdf) |