CMT: A Memory Compression Method for Continual Knowledge Learning of Large Language Models

要約

大規模言語モデル (LLM) は、データ、タスク、ユーザー設定の継続的な変化に適応する必要があります。
LLM はサイズが大きく、トレーニングにかかる​​コストが高いため、頻繁な再トレーニングには適していません。
ただし、急速に進化する人類の知識と同期し続けるには更新が必要です。
これらの課題に対処するために、この文書では、堅牢な知識保持機能を備えた LLM 向けの効率的かつ効果的なオンライン適応フレームワークである圧縮メモリ トレーニング (CMT) 方法を提案します。
人間の記憶メカニズムにヒントを得た CMT は、新しい文書から情報を圧縮して抽出し、メモリ バンクに保存します。
これらの新しいドキュメントに関連するクエリに答えるとき、モデルはメモリ バンクからこれらのドキュメント メモリを集約して、ユーザーの質問に適切に答えます。
LLM 自体のパラメーターはトレーニング中や推論中に変更されないため、致命的な忘却のリスクが軽減されます。
メモリのエンコード、取得、および集約を強化するために、メモリを意識した目的、自己マッチング、およびトップ集約を含む 3 つの新しい一般的で柔軟な手法をさらに提案します。
3 つの継続学習データセット (StreamingQA、SQuAD、ArchivalQA) に対して行われた広範な実験により、提案された方法が複数のベース LLM 全体でモデルの適応性と堅牢性を向上させることが実証されました (例: Llama-2-7b を使用した StreamingQA では +4.07 EM & +4.19 F1)。

要約(オリジナル)

Large Language Models (LLMs) need to adapt to the continuous changes in data, tasks, and user preferences. Due to their massive size and the high costs associated with training, LLMs are not suitable for frequent retraining. However, updates are necessary to keep them in sync with rapidly evolving human knowledge. To address these challenges, this paper proposes the Compression Memory Training (CMT) method, an efficient and effective online adaptation framework for LLMs that features robust knowledge retention capabilities. Inspired by human memory mechanisms, CMT compresses and extracts information from new documents to be stored in a memory bank. When answering to queries related to these new documents, the model aggregates these document memories from the memory bank to better answer user questions. The parameters of the LLM itself do not change during training and inference, reducing the risk of catastrophic forgetting. To enhance the encoding, retrieval, and aggregation of memory, we further propose three new general and flexible techniques, including memory-aware objective, self-matching and top-aggregation. Extensive experiments conducted on three continual learning datasets (i.e., StreamingQA, SQuAD and ArchivalQA) demonstrate that the proposed method improves model adaptability and robustness across multiple base LLMs (e.g., +4.07 EM & +4.19 F1 in StreamingQA with Llama-2-7b).

arxiv情報

著者 Dongfang Li,Zetian Sun,Xinshuo Hu,Baotian Hu,Min Zhang
発行日 2024-12-10 10:35:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク