要約
2022 年後半の ChatGPT リリースに代表される大規模言語モデル (LLM) は、高度な言語理解によりさまざまな業界に革命をもたらしました。
ただし、その効率性は、Transformer アーキテクチャが長いテキストを処理するのに苦労しているため、課題が生じています。
KV-Cache は、この問題に対する極めて重要な解決策として登場し、会話の長さに比例して GPU メモリのオーバーヘッドが増加しますが、トークン生成の時間計算量を二次関数から線形関数に変換します。
LLM コミュニティと学術界の発展に伴い、さまざまな KV キャッシュ圧縮方法が提案されています。
このレビューでは、KV キャッシュのさまざまなプロパティを詳細に分析し、LLM の KV キャッシュ スペース使用量を最適化するために現在使用されているさまざまな方法について詳しく説明します。
これらのメソッドは、事前トレーニング フェーズ、デプロイメント フェーズ、および推論フェーズにまたがっており、これらのメソッド間の共通点と相違点を要約します。
さらに、効率と機能の両方の観点から、大規模な言語モデルの長文機能を評価するための指標をいくつかリストします。
したがって、私たちのレビューは、LLM 最適化の進化する状況に光を当て、このダイナミックな分野における将来の進歩への洞察を提供します。
要約(オリジナル)
Large Language Models (LLMs), epitomized by ChatGPT’ s release in late 2022, have revolutionized various industries with their advanced language comprehension. However, their efficiency is challenged by the Transformer architecture’ s struggle with handling long texts. KV-Cache has emerged as a pivotal solution to this issue, converting the time complexity of token generation from quadratic to linear, albeit with increased GPU memory overhead proportional to conversation length. With the development of the LLM community and academia, various KV-Cache compression methods have been proposed. In this review, we dissect the various properties of KV-Cache and elaborate on various methods currently used to optimize the KV-Cache space usage of LLMs. These methods span the pre-training phase, deployment phase, and inference phase, and we summarize the commonalities and differences among these methods. Additionally, we list some metrics for evaluating the long-text capabilities of large language models, from both efficiency and capability perspectives. Our review thus sheds light on the evolving landscape of LLM optimization, offering insights into future advancements in this dynamic field.
arxiv情報
著者 | Shi Luohe,Zhang Hongyi,Yao Yao,Li Zuchao,Zhao Hai |
発行日 | 2024-07-25 12:56:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google