要約
タイトル:自己制御メモリシステムによる大規模言語モデルの無限長入力容量の解放
要約:
– 大規模言語モデル(LLMs)は、入力の長さに制限がある。
– この制限を解決するため、自己制御メモリ(SCM)システムを提案した。
– SCMシステムは、言語モデルエージェント、メモリストリーム、メモリコントローラーの3つのキーモジュールから構成される。
– 言語モデルエージェントは、超長い入力を反復処理し、すべての過去の情報をメモリストリームに保存する。
– メモリコントローラーは、正確で一貫した応答を生成するために、長期的なメモリ(アーカイブされたメモリ)と短期的なメモリ(フラッシュメモリ)の両方をエージェントに提供する。
– SCMシステムは、修正や微調整なしにどのLLMsにも統合でき、超長いテキストを処理することができる。
– 実験結果は、SCMシステムが、マルチターンの対話に最適化されていないLLMsでも、ChatGPTに匹敵するマルチターンの対話能力を実現し、また超長文書要約や長期的な会話のシナリオでもChatGPTを上回ることができることを示している。
– さらに、共通の長文テキスト入力シナリオをカバーするテストセットを提供し、LLMsの長いドキュメントを処理する能力を評価する。
要約(オリジナル)
Large-scale Language Models (LLMs) are constrained by their inability to process lengthy inputs. To address this limitation, we propose the Self-Controlled Memory (SCM) system to unleash infinite-length input capacity for large-scale language models. Our SCM system is composed of three key modules: the language model agent, the memory stream, and the memory controller. The language model agent iteratively processes ultra-long inputs and stores all historical information in the memory stream. The memory controller provides the agent with both long-term memory (archived memory) and short-term memory (flash memory) to generate precise and coherent responses. The controller determines which memories from archived memory should be activated and how to incorporate them into the model input. Our SCM system can be integrated with any LLMs to enable them to process ultra-long texts without any modification or fine-tuning. Experimental results show that our SCM system enables LLMs, which are not optimized for multi-turn dialogue, to achieve multi-turn dialogue capabilities that are comparable to ChatGPT, and to outperform ChatGPT in scenarios involving ultra-long document summarization or long-term conversations. Additionally, we will supply a test set, which covers common long-text input scenarios, for evaluating the abilities of LLMs in processing long documents.~\footnote{Working in progress.}\footnote{\url{https://github.com/wbbeyourself/SCM4LLMs}}
arxiv情報
著者 | Xinnian Liang,Bing Wang,Hui Huang,Shuangzhi Wu,Peihao Wu,Lu Lu,Zejun Ma,Zhoujun Li |
発行日 | 2023-04-26 07:25:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI