要約
言語モデル (LM) の最近の進歩は、人間のような応答を生成する能力に関して大きな注目を集めています。
これらの LM は、会話 AI などのさまざまなアプリケーションに有望な将来性を示していますが、極度の計算コストと予測できない推論遅延により、さまざまなデバイスでの導入の課題に直面しています。
このようなさまざまな推論レイテンシーは、言語の性質に固有の不確実性の結果として特定され、特に高トラフィックのワークロード下では、計算効率の低下につながり、LM の全体的なパフォーマンスを低下させる可能性があります。
残念ながら、これらの不確実性源の帯域幅は広範囲に及ぶため、待ち時間やそのような不確実性から生じる影響の予測が複雑になります。
リアルタイム応答が要求されるシステムに対する不確実性の影響を理解し、軽減するために、LM におけるこれらの不確実性によって引き起こされるレイテンシーのパフォーマンス変動を理解し、定量化し、最適化するための最初のステップを踏みます。
具体的には、LM のリアルタイム推論のための不確実性を認識したリソース管理エコシステムである RT-LM を紹介します。
RT-LM は、特定の入力の不確実性がレイテンシにどのように悪影響を及ぼし、多くの場合出力長の増加につながるかを革新的に定量化します。
これらの洞察を活用して、入力テキストの不確実性と実行時の出力長を動的に関連付けるための軽量かつ効果的な方法を考案します。
この定量化をレイテンシーヒューリスティックとして利用し、不確実性情報をシステムレベルのスケジューラに統合し、不確実性を考慮した優先順位付け、動的な統合、戦略的な CPU オフロードなど、不確実性によって引き起こされるいくつかの最適化の機会を検討します。
2 つのハードウェア プラットフォーム上の 5 つの最先端の LM にわたる定量的実験により、RT-LM が実行時のオーバーヘッドをかなり小さくしながら、平均応答時間を大幅に短縮し、スループットを向上できることが実証されました。
要約(オリジナル)
Recent advancements in language models (LMs) have gained substantial attentions on their capability to generate human-like responses. Though exhibiting a promising future for various applications such as conversation AI, these LMs face deployment challenges on various devices due to their extreme computational cost and unpredictable inference latency. Such varied inference latency, identified as a consequence of uncertainty intrinsic to the nature of language, can lead to computational inefficiency and degrade the overall performance of LMs, especially under high-traffic workloads. Unfortunately, the bandwidth of these uncertainty sources is extensive, complicating the prediction of latency and the effects emanating from such uncertainties. To understand and mitigate the impact of uncertainty on real-time response-demanding systems, we take the first step to comprehend, quantify and optimize these uncertainty-induced latency performance variations in LMs. Specifically, we present RT-LM, an uncertainty-aware resource management ecosystem for real-time inference of LMs. RT-LM innovatively quantifies how specific input uncertainties, adversely affect latency, often leading to an increased output length. Exploiting these insights, we devise a lightweight yet effective method to dynamically correlate input text uncertainties with output length at runtime. Utilizing this quantification as a latency heuristic, we integrate the uncertainty information into a system-level scheduler which explores several uncertainty-induced optimization opportunities, including uncertainty-aware prioritization, dynamic consolidation, and strategic CPU offloading. Quantitative experiments across five state-of-the-art LMs on two hardware platforms demonstrates that RT-LM can significantly reduce the average response time and improve throughput while incurring a rather small runtime overhead.
arxiv情報
著者 | Yufei Li,Zexin Li,Wei Yang,Cong Liu |
発行日 | 2023-09-12 22:22:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google