要約
大規模な言語モデルは、事実を想起する優れた能力を実証しています。
これまでの研究では、事実想起タスクで訓練されたトランスフォーマーは、パラメーター数に比例した速度で情報を保存できることがわかっています。
私たちの研究では、浅いトランスが連想メモリの組み合わせを使用して、このような最適に近い記憶容量を得ることができることを示しました。
まず、線形連想メモリと MLP 連想メモリの両方の記憶容量がパラメータ数に比例して増加することを証明します。
次に、合成事実想起タスクを導入し、自己注意の単一層とそれに続く MLP を備えたトランスフォーマーは、自己注意パラメータの総数または MLP パラメータのいずれかがスケール (増加) するたびに、タスクで 100% の精度を達成できることを証明します。
ファクトの数に比例してログに記録します)。
特に、トランスフォーマーは、値行列の使用と、ファクトのデータセットを格納するための連想メモリとしての MLP の使用をトレードオフできます。
これらの表現力の結果を、事実想起タスクでトレーニングされた単純化された線形注意モデルの勾配流軌跡の分析で補完し、モデルが逐次的な学習動作を示すことを示します。
要約(オリジナル)
Large language models have demonstrated an impressive ability to perform factual recall. Prior work has found that transformers trained on factual recall tasks can store information at a rate proportional to their parameter count. In our work, we show that shallow transformers can use a combination of associative memories to obtain such near optimal storage capacity. We begin by proving that the storage capacities of both linear and MLP associative memories scale linearly with parameter count. We next introduce a synthetic factual recall task, and prove that a transformer with a single layer of self-attention followed by an MLP can obtain 100% accuracy on the task whenever either the total number of self-attention parameters or MLP parameters scales (up to log factors) linearly with the number of facts. In particular, the transformer can trade off between using the value matrices or the MLP as an associative memory to store the dataset of facts. We complement these expressivity results with an analysis of the gradient flow trajectory of a simplified linear attention model trained on our factual recall task, where we show that the model exhibits sequential learning behavior.
arxiv情報
著者 | Eshaan Nichani,Jason D. Lee,Alberto Bietti |
発行日 | 2024-12-09 14:48:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google