Towards Pareto Optimal Throughput in Small Language Model Serving

要約

大規模言語モデル(LLM)は、様々な自然言語処理タスクの最先端に革命をもたらした。LLMは計算量とメモリ消費量が大きいが、小型言語モデル(SLM)の台頭は、リソースに制約のあるユーザーに新たな機会を提供する。本論文では、SLM推論を性能とエネルギーレベルでベンチマークするために設計された一連の実験を紹介する。我々の分析は、SLMの小さなメモリフットプリントにより、単一のアクセラレータのリソース容量内でパレート最適スループットに到達できることを強調し、サービングにおける新たな視点を提供する。この点に関して、我々は、モデルの複製がSLMのサービングにおけるリソース利用をいかに効果的に改善できるかを実証する最初の発見を提示する。

要約(オリジナル)

Large language models (LLMs) have revolutionized the state-of-the-art of many different natural language processing tasks. Although serving LLMs is computationally and memory demanding, the rise of Small Language Models (SLMs) offers new opportunities for resource-constrained users, who now are able to serve small models with cutting-edge performance. In this paper, we present a set of experiments designed to benchmark SLM inference at performance and energy levels. Our analysis provides a new perspective in serving, highlighting that the small memory footprint of SLMs allows for reaching the Pareto-optimal throughput within the resource capacity of a single accelerator. In this regard, we present an initial set of findings demonstrating how model replication can effectively improve resource utilization for serving SLMs.

arxiv情報

著者 Pol G. Recasens,Yue Zhu,Chen Wang,Eun Kyung Lee,Olivier Tardieu,Alaa Youssef,Jordi Torres,Josep Ll. Berral
発行日 2024-04-04 10:45:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク