Neurocache: Efficient Vector Retrieval for Long-range Language Modeling

要約

この論文では、過去の状態を保存する外部ベクトル キャッシュを使用して大規模言語モデル (LLM) の有効コンテキスト サイズを拡張するアプローチである Neurocache を紹介します。
最近のベクトル検索アプローチと同様に、Neurocache は効率的な k 近傍 (kNN) アルゴリズムを使用して、関連する過去の状態を取得し、それらを注意プロセスに組み込みます。
Neurocache は、(1) 圧縮状態を保存することでキャッシュ サイズを削減し、以前の方法を改良しています。
(2) トークンごとに単一の検索操作を実行することで、推論速度が向上します。
(3) 検索ウィンドウを隣接する州に拡張することで、言語モデリングと下流タスクの精度の両方が向上します。
私たちの実験では、最初からトレーニングされたモデルと、キャッシュ メカニズムで強化された Llama2-7B や Mistral-7B などの事前トレーニングされたモデルの両方に対する Neurocache の有効性が示されています。
また、ニューロキャッシュとテキスト検索手法を比較し、単一文書の質問応答や数ショット学習タスクの改善を示します。
ソース コードは https://github.com/alisafaya/neurocache で利用できるようにしました。

要約(オリジナル)

This paper introduces Neurocache, an approach to extend the effective context size of large language models (LLMs) using an external vector cache to store its past states. Like recent vector retrieval approaches, Neurocache uses an efficient k-nearest-neighbor (kNN) algorithm to retrieve relevant past states and incorporate them into the attention process. Neurocache improves upon previous methods by (1) storing compressed states, which reduces cache size; (2) performing a single retrieval operation per token which increases inference speed; and (3) extending the retrieval window to neighboring states, which improves both language modeling and downstream task accuracy. Our experiments show the effectiveness of Neurocache both for models trained from scratch and for pre-trained models such as Llama2-7B and Mistral-7B when enhanced with the cache mechanism. We also compare Neurocache with text retrieval methods and show improvements in single-document question-answering and few-shot learning tasks. We made the source code available under: https://github.com/alisafaya/neurocache

arxiv情報

著者 Ali Safaya,Deniz Yuret
発行日 2024-07-02 17:59:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク