要約
Large Language Models~(LLM) に関連する最近の成功にもかかわらず、過剰なメモリと計算要求のため、リソースに制約のある環境に導入するには著しくコストがかかります。
モデル パラメーターに加えて、キーと値のキャッシュも GPU メモリに保存され、バッチ サイズとシーケンスの長さに応じて直線的に増加します。
解決策として、最近の研究では、特定の予算内でキーと値のキャッシュのオーバーヘッドを維持するためのさまざまなエビクション ポリシーが提案されています。
このペーパーでは、\textit{重要度スコア計算}と\textit{エビクション スコープの構築}という観点から、既存のエビクション ポリシーの有効性について取り上げます。
私たちは、これら 2 つの側面における以前の政策の欠陥を特定し、一時的な注意スコアと堅牢性の尺度に基づいたバスト \underline{c} 痛み \underline{o} ミッション ポリシーである RoCo を導入します。
プリフィルと自己回帰デコード段階にわたる広範な実験により、RoCo の優位性が検証されました。
最後に、ユーザーフレンドリーなキー値制約生成推論専用の多用途ソフトウェア パッケージである EasyKV をリリースします。
コードは \url{https://github.com/DRSY/EasyKV} で入手できます。
要約(オリジナル)
Despite the recent success associated with Large Language Models~(LLMs), they are notably cost-prohibitive to deploy in resource-constrained environments due to their excessive memory and computational demands. In addition to model parameters, the key-value cache is also stored in GPU memory, growing linearly with batch size and sequence length. As a remedy, recent works have proposed various eviction policies for maintaining the overhead of key-value cache under a given budget. This paper embarks on the efficacy of existing eviction policies in terms of \textit{importance score calculation} and \textit{eviction scope construction}. We identify the deficiency of prior policies in these two aspects and introduce RoCo, a \underline{r}\underline{o}bust \underline{c}ache \underline{o}mission policy based on temporal attention scores and robustness measures. Extensive experimentation spanning prefilling and auto-regressive decoding stages validates the superiority of RoCo. Finally, we release EasyKV, a versatile software package dedicated to user-friendly key-value constrained generative inference. Code available at \url{https://github.com/DRSY/EasyKV}.
arxiv情報
著者 | Siyu Ren,Kenny Q. Zhu |
発行日 | 2024-02-09 09:20:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google