要約
自己注意メカニズムに基づく大規模な言語モデルは、自然言語自体だけでなく、異なる性質のさまざまなタスクでも驚くべきパフォーマンスを達成しました。
ただし、言語の処理に関しては、人間の脳は同じ原理で動作しない可能性があります。
次に、大規模言語モデルで採用されている脳の計算と人工的な自己監視との関係についての議論が確立されます。
脳計算において最も影響力のある仮説の 1 つは、局所学習によって予測誤差を最小限に抑えることを提案する予測コーディング フレームワークです。
ただし、言語処理における予測コーディングの役割とそれに関連する単位の割り当ては不明のままです。
ここでは、各接続のシナプス重みがスパイクとスラブの分布に従い、その分布のみがトレーニングされると仮定して、予測コーディング フレームワーク内で平均場学習モデルを提案します。
このメタ予測学習は、ピクセルがネットワークに順番に入力される手書き数字の分類や、おもちゃや現実の言語のコーパスで成功裏に検証されています。
私たちのモデルは、ほとんどの接続が学習後に決定的になる一方で、出力接続はより高いレベルの変動性を持つことを明らかにしています。
結果として得られるネットワーク アンサンブルのパフォーマンスは、大規模な言語モデルの新たな動作と同様に、データの負荷に応じて継続的に変化し、トレーニング データが増えるとさらに向上します。
したがって、私たちのモデルは、言語処理と予期せぬ一般知能の物理学と生物学の対応関係を調査するための出発点を提供します。
要約(オリジナル)
Large language models based on self-attention mechanisms have achieved astonishing performances not only in natural language itself, but also in a variety of tasks of different nature. However, regarding processing language, our human brain may not operate using the same principle. Then, a debate is established on the connection between brain computation and artificial self-supervision adopted in large language models. One of most influential hypothesis in brain computation is the predictive coding framework, which proposes to minimize the prediction error by local learning. However, the role of predictive coding and the associated credit assignment in language processing remains unknown. Here, we propose a mean-field learning model within the predictive coding framework, assuming that the synaptic weight of each connection follows a spike and slab distribution, and only the distribution is trained. This meta predictive learning is successfully validated on classifying handwritten digits where pixels are input to the network in sequence, and on the toy and real language corpus. Our model reveals that most of the connections become deterministic after learning, while the output connections have a higher level of variability. The performance of the resulting network ensemble changes continuously with data load, further improving with more training data, in analogy with the emergent behavior of large language models. Therefore, our model provides a starting point to investigate the physics and biology correspondences of the language processing and the unexpected general intelligence.
arxiv情報
著者 | Chan Li,Junbin Qiu,Haiping Huang |
発行日 | 2023-09-08 03:58:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google