要約
実稼働環境で大規模言語モデル (LLM) を提供すると、多額のコストが発生する可能性があるため、推論システムの最適化における最近の進歩が促進されています。
現在、これらのシステムは、従来のレイテンシーとスループットの指標 (TTFT、TBT、正規化されたレイテンシー、TPOT など) に対して評価されています。
ただし、これらのメトリクスは LLM 推論の微妙なニュアンスを完全に捉えることができず、チャットや翻訳などのリアルタイム アプリケーションにとって重要なユーザー対応パフォーマンスの不完全な評価につながります。
この論文では、まず、LLM 推論システムを評価する際の現在のパフォーマンス指標の落とし穴を特定します。
次に、流動性インデックスを含む包括的なパフォーマンス評価フレームワークである Etalon を提案します。流動性インデックスは、LLM 推論プロセスの複雑さとリアルタイムのユーザー エクスペリエンスへの影響を反映するように設計された新しい指標です。
最後に、Etalon を使用して既存のさまざまなオープンソース プラットフォームとサービスとしてのモデルを評価し、それらの長所と短所について説明します。
Etalon は https://github.com/project-etalon/etalon で入手できます。
要約(オリジナル)
Serving large language models (LLMs) in production can incur substantial costs, which has prompted recent advances in inference system optimizations. Today, these systems are evaluated against conventional latency and throughput metrics (eg. TTFT, TBT, Normalised Latency and TPOT). However, these metrics fail to fully capture the nuances of LLM inference, leading to an incomplete assessment of user-facing performance crucial for real-time applications such as chat and translation. In this paper, we first identify the pitfalls of current performance metrics in evaluating LLM inference systems. We then propose Etalon, a comprehensive performance evaluation framework that includes fluidity-index — a novel metric designed to reflect the intricacies of the LLM inference process and its impact on real-time user experience. Finally, we evaluate various existing open-source platforms and model-as-a-service offerings using Etalon, discussing their strengths and weaknesses. Etalon is available at https://github.com/project-etalon/etalon.
arxiv情報
著者 | Amey Agrawal,Anmol Agarwal,Nitin Kedia,Jayashree Mohan,Souvik Kundu,Nipun Kwatra,Ramachandran Ramjee,Alexey Tumanov |
発行日 | 2024-08-30 01:19:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google