Compressed Context Memory For Online Language Model Interaction

要約

この論文では、コンテキストが継続的に拡張する ChatGPT などのオンライン シナリオにおける Transformer 言語モデルの新しいコンテキスト圧縮方法を紹介します。
コンテキストが長くなると、アテンションのプロセスにより多くのメモリと計算リソースが必要になり、言語モデルのスループットが低下します。
この目的を達成するために、我々は、増大するコンテキストをコンパクトなメモリ空間に継続的に圧縮する圧縮コンテキストメモリシステムを提案する。
圧縮プロセスには、推論中の言語モデルのフォワード パスに軽量の条件付き LoRA を統合するだけが含まれます。
圧縮されたコンテキスト メモリに基づいて、言語モデルはメモリとアテンション操作を削減して推論を実行できます。
会話、パーソナライゼーション、マルチタスク学習の評価を通じて、私たちのアプローチが $5\time$ 小さいコンテキスト メモリ空間でフル コンテキスト モデルのパフォーマンス レベルを達成することを実証しました。
コードは https://github.com/snu-mllab/context-memory で入手できます。

要約(オリジナル)

This paper presents a novel context compression method for Transformer language models in online scenarios such as ChatGPT, where the context continually expands. As the context lengthens, the attention process requires more memory and computational resources, which in turn reduces the throughput of the language model. To this end, we propose a compressed context memory system that continually compresses the growing context into a compact memory space. The compression process simply involves integrating a lightweight conditional LoRA into the language model’s forward pass during inference. Based on the compressed context memory, the language model can perform inference with reduced memory and attention operations. Through evaluations on conversation, personalization, and multi-task learning, we demonstrate that our approach achieves the performance level of a full context model with $5\times$ smaller context memory space. Codes are available at https://github.com/snu-mllab/context-memory.

arxiv情報

著者 Jang-Hyun Kim,Junyoung Yeom,Sangdoo Yun,Hyun Oh Song
発行日 2023-12-06 10:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク