要約
メモリ レイヤーは、トレーニング可能なキーと値のルックアップ メカニズムを使用して、FLOP を増加させることなく追加のパラメーターをモデルに追加します。
概念的には、まばらにアクティブ化されたメモリ層は、計算量の多い高密度フィードフォワード層を補完し、情報を安価に保存および取得する専用の容量を提供します。
この研究では、メモリ層が概念実証を超えて、現代の規模でのその有用性を証明しています。
下流のタスクでは、改良されたメモリ層で強化された言語モデルは、計算量とパラメータの両方が一致した場合、2 倍以上の計算予算を持つ高密度モデルや、専門家混合モデルよりも優れたパフォーマンスを発揮します。
事実に基づくタスクでは、特に顕著な効果が得られることがわかりました。
完全に並列化可能なメモリ層の実装を提供し、最大 8B パラメータの基本モデルと比較して、1 兆トークンまで事前トレーニングされた最大 128B メモリ パラメータのスケーリング則を実証します。
要約(オリジナル)
Memory layers use a trainable key-value lookup mechanism to add extra parameters to a model without increasing FLOPs. Conceptually, sparsely activated memory layers complement compute-heavy dense feed-forward layers, providing dedicated capacity to store and retrieve information cheaply. This work takes memory layers beyond proof-of-concept, proving their utility at contemporary scale. On downstream tasks, language models augmented with our improved memory layer outperform dense models with more than twice the computation budget, as well as mixture-of-expert models when matched for both compute and parameters. We find gains are especially pronounced for factual tasks. We provide a fully parallelizable memory layer implementation, demonstrating scaling laws with up to 128B memory parameters, pretrained to 1 trillion tokens, comparing to base models with up to 8B parameters.
arxiv情報
著者 | Vincent-Pierre Berges,Barlas Oğuz,Daniel Haziza,Wen-tau Yih,Luke Zettlemoyer,Gargi Ghosh |
発行日 | 2024-12-20 17:36:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google