Provably Optimal Memory Capacity for Modern Hopfield Models: Transformer-Compatible Dense Associative Memories as Spherical Codes

要約

私たちは、最新のホップフィールド モデルと、トランス互換の高密度連想記憶クラスであるカーネル化ホップフィールド モデル (KHM) の最適な記憶能力を研究します。
KHM のメモリ構成と情報理論からの球状コードの間の関係を確立することにより、厳密な分析を示します。
具体的には、保存されたメモリセットを特殊な球状コードとして扱います。
これにより、KHM の暗記問題を超球上の点配置問題にキャストすることができます。
特徴空間によりメモリが最適な球状コードを形成できる場合に、KHM の最適な容量が発生することを示します。
このユニークな視点は次のことにつながります。 (i) KHM がどのようにして最適なメモリ容量を達成し、対応する必要な条件を特定するかを分析します。
重要なのは、文献でよく知られている指数関数の下限と一致する容量の上限を確立していることです。
これにより、最新のホップフィールド モデルに最初のタイトで最適な漸近メモリ容量が提供されます。
(ii) KHM の最適な容量に到達するためのサブリニア時間アルゴリズム $\mathtt{U}\text{-}\mathtt{Hop}$+。
(iii) 保存されたメモリの数に対する必要な機能の次元のスケーリング動作の分析。
これらの取り組みにより、KHM の検索機能と、対応するトランスフォーマーの表現学習の両方が向上します。
実験では、理論的発見を裏付けるために徹底的な数値結果を提供します。

要約(オリジナル)

We study the optimal memorization capacity of modern Hopfield models and Kernelized Hopfield Models (KHMs), a transformer-compatible class of Dense Associative Memories. We present a tight analysis by establishing a connection between the memory configuration of KHMs and spherical codes from information theory. Specifically, we treat the stored memory set as a specialized spherical code. This enables us to cast the memorization problem in KHMs into a point arrangement problem on a hypersphere. We show that the optimal capacity of KHMs occurs when the feature space allows memories to form an optimal spherical code. This unique perspective leads to: (i) An analysis of how KHMs achieve optimal memory capacity, and identify corresponding necessary conditions. Importantly, we establish an upper capacity bound that matches the well-known exponential lower bound in the literature. This provides the first tight and optimal asymptotic memory capacity for modern Hopfield models. (ii) A sub-linear time algorithm $\mathtt{U}\text{-}\mathtt{Hop}$+ to reach KHMs’ optimal capacity. (iii) An analysis of the scaling behavior of the required feature dimension relative to the number of stored memories. These efforts improve both the retrieval capability of KHMs and the representation learning of corresponding transformers. Experimentally, we provide thorough numerical results to back up theoretical findings.

arxiv情報

著者 Jerry Yao-Chieh Hu,Dennis Wu,Han Liu
発行日 2024-10-30 15:35:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE, stat.ML パーマリンク