HMT: Hierarchical Memory Transformer for Long Context Language Processing

要約

トランスフォーマーベースの大規模言語モデル (LLM) は、言語処理アプリケーションで広く使用されています。
ただし、それらのほとんどは、モデルが入力内のすべてのトークンに対応できるようにするコンテキスト ウィンドウを制限します。
リカレント モデルでの以前の作業は、過去のトークンを記憶して、無制限のコンテキストを有効にし、有効性を維持できます。
ただし、これらは「フラット」メモリ アーキテクチャを採用しているため、情報の選択とフィルタリングに制限があります。
人間は学習と自己調整に優れているため、脳の記憶階層を模倣することはモデルの記憶に有益であると推測されます。
我々は、人間の記憶動作を模倣することでモデルの長期コンテキスト処理能力を可能にし、向上させる新しいフレームワークである Hierarchical Memory Transformer (HMT) を提案します。
メモリ拡張されたセグメントレベルの再帰を利用して、初期の入力トークンセグメントからトークンを保存し、シーケンスに沿ってメモリ埋め込みを渡し、履歴から関連情報を呼び出すことによってメモリ階層を編成します。
一般的な言語モデリング (Wikitext-103、PG-19) と質問応答タスク (PubMedQA) を評価することで、HMT がコンテキスト制約モデルとロングコンテキスト モデルのロングコンテキスト処理能力を着実に向上させることを示します。
パラメータを 0.5% ~ 2% 追加すると、HMT は将来の LLM を簡単にプラグインおよび拡張して、長いコンテキストを効果的に処理できます。
私たちのコードは Github でオープンソース化されています: https://github.com/OswaldHe/HMT-pytorch。

要約(オリジナル)

Transformer-based large language models (LLM) have been widely used in language processing applications. However, most of them restrict the context window that permits the model to attend to every token in the inputs. Previous works in recurrent models can memorize past tokens to enable unlimited context and maintain effectiveness. However, they have ‘flat’ memory architectures, which have limitations in selecting and filtering information. Since humans are good at learning and self-adjustment, we speculate that imitating brain memory hierarchy is beneficial for model memorization. We propose the Hierarchical Memory Transformer (HMT), a novel framework that enables and improves models’ long-context processing ability by imitating human memorization behavior. Leveraging memory-augmented segment-level recurrence, we organize the memory hierarchy by preserving tokens from early input token segments, passing memory embeddings along the sequence, and recalling relevant information from history. Evaluating general language modeling (Wikitext-103, PG-19) and question-answering tasks (PubMedQA), we show that HMT steadily improves the long-context processing ability of context-constrained and long-context models. With an additional 0.5% – 2% of parameters, HMT can easily plug in and augment future LLMs to handle long context effectively. Our code is open-sourced on Github: https://github.com/OswaldHe/HMT-pytorch.

arxiv情報

著者 Zifan He,Zongyue Qin,Neha Prakriya,Yizhou Sun,Jason Cong
発行日 2024-05-14 06:09:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク