Needle in the Haystack for Memory Based Large Language Models

要約

現在の大規模言語モデル (LLM) は、単純なファクト検索タスクではパフォーマンスが低下することがよくあります。
ここでは、動的に適応可能な外部メモリを LLM に結合することでこの問題を軽減できるかどうかを調査します。
この目的のために、外部連想記憶を使用する最近提案された言語モデル アーキテクチャである Larimar を、パスキー テストや干し草の山の針テストなどの長いコンテキストの想起タスクでテストします。
私たちは、テキスト サンプルのエピソードの高速な書き込みと読み取りを可能にする Larimar の外部メモリをテスト時に使用して、トレーニング中に見られたものよりもはるかに長いコンテキストを処理できることを示します。
さらに、GPU に保存されたメモリを使用して、(長いコンテキストが書き込まれる) メモリからの潜在的な読み出しが正しい出力を生成するようにデコーダを制御することを示します。
より大きなパラメータ数や修正された注意メカニズムを使用する長いコンテキストの想起タスク用の既存のトランスフォーマーベースの LLM アーキテクチャと比較して、比較的小さいサイズの Larimar は、タスク固有のトレーニングやより長いコンテキストでのトレーニングを行わなくても、強力なパフォーマンスを維持できます。

要約(オリジナル)

Current large language models (LLMs) often perform poorly on simple fact retrieval tasks. Here we investigate if coupling a dynamically adaptable external memory to a LLM can alleviate this problem. For this purpose, we test Larimar, a recently proposed language model architecture which uses an external associative memory, on long-context recall tasks including passkey and needle-in-the-haystack tests. We demonstrate that the external memory of Larimar, which allows fast write and read of an episode of text samples, can be used at test time to handle contexts much longer than those seen during training. We further show that the latent readouts from the memory (to which long contexts are written) control the decoder towards generating correct outputs, with the memory stored off of the GPU. Compared to existing transformer-based LLM architectures for long-context recall tasks that use larger parameter counts or modified attention mechanisms, a relatively smaller size Larimar is able to maintain strong performance without any task-specific training or training on longer contexts.

arxiv情報

著者 Elliot Nelson,Georgios Kollias,Payel Das,Subhajit Chaudhury,Soham Dan
発行日 2024-07-12 17:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク