The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines

要約

最近、オープンソースの大規模言語モデル(LLM)が急増しており、開発者はプライバシーやコンプライアンスなどの側面を管理しながら、AIベースのソリューションを作成することができる。これらのLLMを利用するには、推論エンジンが必要である。これらのエンジンは、モデルの重みをGPUなどの利用可能なリソースにロードし、クエリーを処理して応答を生成する。LLMは、1回の推論で数百万から数十億の浮動小数点演算を計算するため、推論の速度、つまり性能は、リアルタイムアプリケーションにとって非常に重要です。近年、vLLMのような先進的な推論エンジンが登場し、効率的なメモリ管理のような新しいメカニズムを取り入れて、最先端の性能を達成している。本稿では、vLLMとHuggingFaceのパイプラインという2つの推論ライブラリを用いて、20のLLMの性能、特にスループット(単位時間当たりに生成されるトークン)を分析する。開発者が設定しなければならない様々なハイパーパラメータが、推論性能にどのように影響するかを調査した。その結果、スループットランドスケープは不規則で、明確なピークを持つことが明らかになり、最大性能を達成するためのハイパーパラメータ最適化の重要性が浮き彫りになった。また、推論に使用するGPUモデルをアップグレードまたはダウングレードする際にハイパーパラメータ最適化を適用することで、HuggingFaceパイプラインのスループットがそれぞれ平均9.16%および13.7%向上することも示しています。

要約(オリジナル)

The recent surge of open-source large language models (LLMs) enables developers to create AI-based solutions while maintaining control over aspects such as privacy and compliance, thereby providing governance and ownership of the model deployment process. To utilize these LLMs, inference engines are needed. These engines load the model’s weights onto available resources, such as GPUs, and process queries to generate responses. The speed of inference, or performance, of the LLM, is critical for real-time applications, as it computes millions or billions of floating point operations per inference. Recently, advanced inference engines such as vLLM have emerged, incorporating novel mechanisms such as efficient memory management to achieve state-of-the-art performance. In this paper, we analyze the performance, particularly the throughput (tokens generated per unit of time), of 20 LLMs using two inference libraries: vLLM and HuggingFace’s pipelines. We investigate how various hyperparameters, which developers must configure, influence inference performance. Our results reveal that throughput landscapes are irregular, with distinct peaks, highlighting the importance of hyperparameter optimization to achieve maximum performance. We also show that applying hyperparameter optimization when upgrading or downgrading the GPU model used for inference can improve throughput from HuggingFace pipelines by an average of 9.16% and 13.7%, respectively.

arxiv情報

著者 Matias Martinez
発行日 2024-08-02 06:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.SE パーマリンク