What does self-attention learn from Masked Language Modelling?

要約

トランスフォーマーは、自然言語処理と機械学習に革命をもたらしたニューラル ネットワークです。
これらは、マスク言語モデリング (MLM) によってトレーニングされた自己注意と呼ばれるメカニズムを使用して、単語などの一連の入力を処理します。
MLM では、入力シーケンス内の単語がランダムにマスクされ、欠落している単語を予測するようにネットワークがトレーニングされます。
トランスフォーマーの実用的な成功にもかかわらず、どのような種類のデータ分布の自己注意が効率的に学習できるかは依然として不明です。
ここでは、単語の位置と埋め込みの処理を分離すると、自己注意の単一層が、サイトとポッツの色の間の相互作用を含む一般化ポッツ モデルの条件文を学習することを分析的に示します。
さらに、このニューラル ネットワークのトレーニングが、統計物理学でよく知られている、いわゆる擬似尤度法によって逆ポッツ問題を解くこととまったく同じであることを示します。
このマッピングを使用して、レプリカ法を使用してモデル シナリオにおける自己注意の汎化誤差を分析的に計算します。

要約(オリジナル)

Transformers are neural networks which revolutionised natural language processing and machine learning. They process sequences of inputs, like words, using a mechanism called self-attention, which is trained via masked language modelling (MLM). In MLM, a word is randomly masked in an input sequence, and the network is trained to predict the missing word. Despite the practical success of transformers, it remains unclear what type of data distribution self-attention can learn efficiently. Here, we show analytically that if one decouples the treatment of word positions and embeddings, a single layer of self-attention learns the conditionals of a generalised Potts model with interactions between sites and Potts colours. Moreover, we show that training this neural network is exactly equivalent to solving the inverse Potts problem by the so-called pseudo-likelihood method, well known in statistical physics. Using this mapping, we compute the generalisation error of self-attention in a model scenario analytically using the replica method.

arxiv情報

著者 Riccardo Rende,Federica Gerace,Alessandro Laio,Sebastian Goldt
発行日 2024-02-07 09:48:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.CL, stat.ML パーマリンク