要約
大規模言語モデル (LLM) は、複雑なワークフローでますます採用されており、さまざまな LLM と微調整されたバリアントが協力して複雑なタスクに対処します。
ただし、これらのシステムは、共有コンテキストの冗長なコンテキスト処理により、大幅な非効率に直面しています。
私たちは、同じ基本モデルから派生した微調整された LLM 間のコンテキスト共有を最適化するフレームワークである DroidSpeak を提案します。
DroidSpeak は、KV キャッシュ内の重要なレイヤーを特定し、それらを選択的に再計算することで、高精度を維持しながら中間データを効果的に再利用できるようにします。
私たちのアプローチは計算効率とタスク忠実度のバランスをとり、推論レイテンシとスループットのボトルネックを大幅に削減します。
さまざまなデータセットとモデルのペアでの実験により、DroidSpeak は完全な再計算と比較して、精度の損失が無視できる程度で、最大 3 倍のスループットと 2.6 倍の高速なプレフィル時間を達成できることが実証されました。
要約(オリジナル)
Large Language Models (LLMs) are increasingly employed in complex workflows, where different LLMs and fine-tuned variants collaboratively address complex tasks. However, these systems face significant inefficiencies due to redundant context processing of the shared context. We propose DroidSpeak, a framework that optimizes context sharing between fine-tuned LLMs derived from the same foundational model. DroidSpeak identifies critical layers in the KV cache and selectively recomputes them, enabling effective reuse of intermediate data while maintaining high accuracy. Our approach balances computational efficiency and task fidelity, significantly reducing inference latency and throughput bottlenecks. Experiments on diverse datasets and model pairs demonstrate that DroidSpeak achieves up to 3x higher throughputs and 2.6x faster prefill times with negligible accuracy loss compared to full recomputation.
arxiv情報
著者 | Yuhan Liu,Yuyang Huang,Jiayi Yao,Zhuohan Gu,Kuntai Du,Hanchen Li,Yihua Cheng,Junchen Jiang,Shan Lu,Madan Musuvathi,Esha Choukse |
発行日 | 2024-12-13 17:53:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google