Scaling Laws for Associative Memories

要約

学習にはおそらく、抽象的なルールの発見と記憶が含まれます。
この論文の目的は、連想記憶のメカニズムを研究することです。
私たちのモデルは、トランスフォーマー言語モデルの内層に関連する埋め込みの外積で構成される高次元行列に基づいています。
サンプルサイズとパラメータサイズに関する正確なスケーリング則を導き出し、最適化ベースのアルゴリズムを含むさまざまな推定量の統計的効率について議論します。
私たちは、保存された記憶の関連付けのきめ細かい視覚化を含む、理論的結果を検証および解釈するための広範な数値実験を提供します。

要約(オリジナル)

Learning arguably involves the discovery and memorization of abstract rules. The aim of this paper is to study associative memory mechanisms. Our model is based on high-dimensional matrices consisting of outer products of embeddings, which relates to the inner layers of transformer language models. We derive precise scaling laws with respect to sample size and parameter size, and discuss the statistical efficiency of different estimators, including optimization-based algorithms. We provide extensive numerical experiments to validate and interpret theoretical results, including fine-grained visualizations of the stored memory associations.

arxiv情報

著者 Vivien Cabannes,Elvis Dohmatob,Alberto Bietti
発行日 2023-10-04 17:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE, G.1.6, stat.ML パーマリンク