Bridging Associative Memory and Probabilistic Modeling

要約

連想記憶と確率モデリングは、人工知能における 2 つの基本的なトピックです。
1 つ目では、データのノイズ除去、完全化、取得を目的としたリカレント ニューラル ネットワークについて研究し、2 つ目では、確率分布からの学習とサンプリングについて研究します。
連想記憶のエネルギー関数は確率モデリングの負の対数尤度として見なすことができるという観察に基づいて、両方向への有用なアイデアの流れを可能にする両者の間に架け橋を構築します。
4 つの例を紹介します。 まず、エネルギー関数を新しいコンテキスト内データセットに柔軟に適応させる新しいエネルギーベースのモデルを提案します。これは、\textit{エネルギー関数のコンテキスト内学習} と呼ばれるアプローチです。
次に、2 つの新しい連想記憶モデルを提案します。1 つはベイジアン ノンパラメトリックを使用してトレーニング データの必要に応じて新しい記憶を動的に作成するもの、もう 1 つは証拠の下限を使用して比例記憶割り当てを明示的に計算するものです。
3 番目に、連想記憶のツールを使用して、確率モデリングで広く使用されているツールであるガウス カーネル密度推定器の記憶容量を分析的および数値的に特徴付けます。
第 4 に、トランスフォーマにおける広範な実装の選択 (正規化とその後の自己注意) を研究し、超球面上でクラスタリングが実行されることを示します。
全体として、この研究は、人工知能のこれら 2 つの大陸の間で有益なアイデアのさらなる交換を促します。

要約(オリジナル)

Associative memory and probabilistic modeling are two fundamental topics in artificial intelligence. The first studies recurrent neural networks designed to denoise, complete and retrieve data, whereas the second studies learning and sampling from probability distributions. Based on the observation that associative memory’s energy functions can be seen as probabilistic modeling’s negative log likelihoods, we build a bridge between the two that enables useful flow of ideas in both directions. We showcase four examples: First, we propose new energy-based models that flexibly adapt their energy functions to new in-context datasets, an approach we term \textit{in-context learning of energy functions}. Second, we propose two new associative memory models: one that dynamically creates new memories as necessitated by the training data using Bayesian nonparametrics, and another that explicitly computes proportional memory assignments using the evidence lower bound. Third, using tools from associative memory, we analytically and numerically characterize the memory capacity of Gaussian kernel density estimators, a widespread tool in probababilistic modeling. Fourth, we study a widespread implementation choice in transformers — normalization followed by self attention — to show it performs clustering on the hypersphere. Altogether, this work urges further exchange of useful ideas between these two continents of artificial intelligence.

arxiv情報

著者 Rylan Schaeffer,Nika Zahedi,Mikail Khona,Dhruv Pai,Sang Truong,Yilun Du,Mitchell Ostrow,Sarthak Chandra,Andres Carranza,Ila Rani Fiete,Andrey Gromov,Sanmi Koyejo
発行日 2024-02-15 18:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク