要約
大規模言語モデル (LLM) の使用が急速に拡大するにつれて、さまざまな LLM クエリを補足するために必要な知識の範囲も拡大しています。
したがって、LLM 推論において新しい知識を柔軟かつ効率的に注入できるようにすることが重要です。
3 つの高レベルのオプションが存在します: (i) LLM の重みに知識を埋め込む (つまり、微調整)、(ii) LLM のテキスト入力の一部として知識を含める (つまり、コンテキスト内学習)、または (iii)
プレフィル中に新しいナレッジの KV キャッシュを LLM に注入します。
この論文では、微調整とコンテキスト内学習が一般的ですが、知識の媒体として KV キャッシュを使用すると、知識注入のよりモジュール化された管理と、低コストで高速な応答によるより効率的な LLM サービスが同時に可能になる可能性があると主張しています。
これらのメリットを実現するために、私たちは、LLM エンジンやその他のコンピューティングおよびストレージ リソースにわたる KV キャッシュのストレージ、転送、構成を動的に最適化する、LLM サービスの新しいシステム コンポーネントである Knowledge Delivery Network (KDN) を構想しています。
Akamai などのコンテンツ配信ネットワーク (CDN) が効率的なデータ配信を通じてインターネット エコシステムの成功を可能にしたのと同様に、KDN は効率的なナレッジ配信を通じて LLM アプリケーションの成功に不可欠になると考えています。
KDN プロトタイプを https://github.com/LMCache/LMCache でオープンソース化しました。
要約(オリジナル)
As the use of large language models (LLMs) expands rapidly, so does the range of knowledge needed to supplement various LLM queries. Thus, enabling flexible and efficient injection of new knowledge in LLM inference is critical. Three high-level options exist: (i) embedding the knowledge in LLM’s weights (i.e., fine-tuning), (ii) including the knowledge as a part of LLM’s text input (i.e., in-context learning), or (iii) injecting the KV caches of the new knowledge to LLM during prefill. This paper argues that, although fine-tuning and in-context learning are popular, using KV caches as the medium of knowledge could simultaneously enable more modular management of knowledge injection and more efficient LLM serving with low cost and fast response. To realize these benefits, we envision a Knowledge Delivery Network (KDN), a new system component in LLM services that dynamically optimizes the storage, transfer, and composition of KV cache across LLM engines and other compute and storage resources. We believe that, just like content delivery networks (CDNs), such as Akamai, enabled the success of the Internet ecosystem through their efficient data delivery, KDNs will be critical to the success of LLM applications through their efficient knowledge delivery. We have open-sourced a KDN prototype at https://github.com/LMCache/LMCache.
arxiv情報
著者 | Yihua Cheng,Kuntai Du,Jiayi Yao,Junchen Jiang |
発行日 | 2024-10-21 15:59:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google