Attendre: Wait To Attend By Retrieval With Evicted Queries in Memory-Based Transformers for Long Context Processing

要約

LLM がより複雑なタイプの入力を処理できるようになったことで、研究者は最近、任意の長さのシーケンスを効率的かつ低コストで処理する方法を研究しています。
効果的なアプローチの 1 つは、FIFO メモリを使用して過去のチャンクからのアテンション サブレイヤのキーと値を保存し、後続のクエリが参加できるようにすることです。
ただし、このアプローチでは大容量のメモリが必要になるか、特定の LM アーキテクチャが考慮されます。
さらに、以前のコンテキストのキーと値と現在のクエリとの間の因果関係により、このアプローチは、エンコーダ – デコーダまたは PrefixLM デコーダのみのアーキテクチャのような双方向のアテンションに拡張することはできません。
この論文では、LRA や LFA などのエビクション ポリシーを使用してメモリ サイズを削減し、さまざまなアーキテクチャに適応することを提案します。また、キーと値のメモリを取得することによる参加待機メカニズムであるアテンド レイヤも提案します。
(K/V メモリ) とクエリ メモリ (Q メモリ) 内の削除されたクエリ。
最初のステップとして、TriviaQA 読解タスクを使用してコンテキスト長拡張セットアップでこの方法を評価し、アプローチの有効性を示します。

要約(オリジナル)

As LLMs have become capable of processing more complex types of inputs, researchers have recently studied how to efficiently and affordably process possibly arbitrarily long sequences. One effective approach is to use a FIFO memory to store keys and values of an attention sublayer from past chunks to allow subsequent queries to attend. However, this approach requires a large memory and/or takes into the consideration the specific LM architecture. Moreover, due to the causal nature between the key-values in prior context and the queries at present, this approach cannot be extended to bidirectional attention such as in an encoder-decoder or PrefixLM decoder-only architecture. In this paper, we propose to use eviction policies, such as LRA and LFA, to reduce the memory size and adapt to various architectures, and we also propose the Attendre layer, a wait-to-attend mechanism by retrieving the key-value memory (K/V memory) with evicted queries in the query memory (Q memory). As a first step, we evaluate this method in the context length extension setup using the TriviaQA reading comprehension task, and show the effectiveness of the approach.

arxiv情報

著者 Zi Yang,Nan Hua
発行日 2024-01-10 02:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク