SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator

要約

大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにわたって優れたパフォーマンスを示しています。
ただし、そのサイズが大きいため、二次関数の複雑さにより、特に計算量と推論速度の点でかなりの課題が生じます。
この研究では、重要なパターンを特定しました。それは、特定の一見無意味に見える特別なトークン (つまり、セパレーター) が、意味的に意味のあるトークンと比較して注意スコアに不釣り合いに寄与しているということです。
この観察は、これらのセパレータ トークン間のセグメントの情報が、重大な情報損失なしにセパレータ トークン自体に効果的に凝縮できることを示唆しています。
この洞察に基づいて、これらのセグメントを圧縮し、冗長なトークンを排除することで推論を高速化するプラグアンドプレイ フレームワークである SepLLM を紹介します。
さらに、トレーニングを高速化するために効率的なカーネルを実装します。
トレーニングなし、最初からトレーニング、およびトレーニング後の設定にわたる実験結果は、SepLLM の有効性を示しています。
特に、Llama-3-8B バックボーンを使用することで、SepLLM は同等のパフォーマンスを維持しながら、GSM8K-CoT ベンチマークで KV キャッシュを 50% 以上削減します。
さらに、ストリーミング設定では、SepLLM は一貫した言語モデリング機能を維持しながら、最大 400 万以上のトークンのシーケンスを効果的に処理します。

要約(オリジナル)

Large Language Models (LLMs) have exhibited exceptional performance across a spectrum of natural language processing tasks. However, their substantial sizes pose considerable challenges, particularly in computational demands and inference speed, due to their quadratic complexity. In this work, we have identified a key pattern: certain seemingly meaningless special tokens (i.e., separators) contribute disproportionately to attention scores compared to semantically meaningful tokens. This observation suggests that information of the segments between these separator tokens can be effectively condensed into the separator tokens themselves without significant information loss. Guided by this insight, we introduce SepLLM, a plug-and-play framework that accelerates inference by compressing these segments and eliminating redundant tokens. Additionally, we implement efficient kernels for training acceleration. Experimental results across training-free, training-from-scratch, and post-training settings demonstrate SepLLM’s effectiveness. Notably, using the Llama-3-8B backbone, SepLLM achieves over 50% reduction in KV cache on the GSM8K-CoT benchmark while maintaining comparable performance. Furthermore, in streaming settings, SepLLM effectively processes sequences of up to 4 million tokens or more while maintaining consistent language modeling capabilities.

arxiv情報

著者 Guoxuan Chen,Han Shi,Jiawei Li,Yihang Gao,Xiaozhe Ren,Yimeng Chen,Xin Jiang,Zhenguo Li,Weiyang Liu,Chao Huang
発行日 2024-12-16 18:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク