要約
大規模言語モデル (LLM) は近年の破壊的イノベーションであり、人間のようなテキストを理解して生成する能力により、私たちの日常生活で重要な役割を果たしています。
その機能には、自然言語理解、情報の検索と検索、翻訳、チャットボット、仮想支援などが含まれます。
ただし、LLM はパラメーターの数が膨大であることがよく知られています。
さらに、LLM の基礎となるアーキテクチャであるトランスフォーマーのセルフアテンション メカニズムは、入力シーケンスの長さに関して、計算とメモリの両方の点で 2 次の複雑さを持ちます。
これらの理由により、LLM 推論はリソースを大量に消費するため、特に長いシーケンスの場合、LLM 推論のスループットは制限されます。
このレポートでは、スループット制限を軽減するために、サーバーとそのクライアントの間の協調推論アーキテクチャを設計します。
この設計では、両側で利用可能なリソース、つまり計算コストと通信コストを考慮します。
サービス レベル アグリーメント (SLA) に違反せずに、サーバーとクライアント デバイス間で計算を最適に割り当て、サーバーのスループットを向上させる動的プログラミング ベースのアルゴリズムを開発します。
実験では、ワークロードを効率的に分散することができ、サーバーのワークロードを約 1/3 削減できると同時に、貪欲な方法と比較して 19 パーセントの改善を達成できることが示されました。
その結果、さまざまな種類の LLM 推論リクエストがある環境で、サーバーのスループットが向上することを実証できました。
要約(オリジナル)
Large language models (LLMs) have been a disruptive innovation in recent years, and they play a crucial role in our daily lives due to their ability to understand and generate human-like text. Their capabilities include natural language understanding, information retrieval and search, translation, chatbots, virtual assistance, and many more. However, it is well known that LLMs are massive in terms of the number of parameters. Additionally, the self-attention mechanism in the underlying architecture of LLMs, Transformers, has quadratic complexity in terms of both computation and memory with respect to the input sequence length. For these reasons, LLM inference is resource-intensive, and thus, the throughput of LLM inference is limited, especially for the longer sequences. In this report, we design a collaborative inference architecture between a server and its clients to alleviate the throughput limit. In this design, we consider the available resources on both sides, i.e., the computation and communication costs. We develop a dynamic programming-based algorithm to optimally allocate computation between the server and the client device to increase the server throughput, while not violating the service level agreement (SLA). We show in the experiments that we are able to efficiently distribute the workload allowing for roughly 1/3 reduction in the server workload, while achieving 19 percent improvement over a greedy method. As a result, we are able to demonstrate that, in an environment with different types of LLM inference requests, the throughput of the server is improved.
arxiv情報
著者 | Akrit Mudvari,Yuang Jiang,Leandros Tassiulas |
発行日 | 2024-10-14 17:38:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google