要約
Transformer ベースの大規模モデルのアプリケーションは、近年多くの成功を収めています。
ただし、大規模モデルのパラメーターが指数関数的に増加すると、エッジ展開にはメモリに関する大きな課題が生じます。
この課題に対処するためのこれまでの取り組みは、主にモデル構造の最適化とメモリ スワッピング手法の採用に焦点を当てていました。
ただし、前者は推論精度が低下し、後者は推論レイテンシが増加します。
このペーパーでは、メモリ効率の高い新しいパイプライン実行メカニズムである PIPELOAD を紹介します。
動的メモリ管理を組み込むことでメモリ使用量を削減し、並列モデル読み込みを採用することで推論遅延を最小限に抑えます。
PIPELOAD メカニズムに基づいて、エッジ デバイス上の大規模モデル推論に最適化されたフレームワークである Hermes を紹介します。
さまざまなサイズのトランスベースのモデルでエルメスを評価します。
私たちの実験では、Hermes は、BERT および ViT モデルの最先端のパイプライン メカニズムと比較して、推論速度が最大 4.24 倍向上し、メモリ消費量が 86.7% 削減され、BERT および ViT モデルでは推論速度が 2.58 倍向上し、メモリ消費量が 90.3% 削減されたことが示されています。
GPTスタイルモデル。
要約(オリジナル)
The application of Transformer-based large models has achieved numerous success in recent years. However, the exponential growth in the parameters of large models introduces formidable memory challenge for edge deployment. Prior works to address this challenge mainly focus on optimizing the model structure and adopting memory swapping methods. However, the former reduces the inference accuracy, and the latter raises the inference latency. This paper introduces PIPELOAD, a novel memory-efficient pipeline execution mechanism. It reduces memory usage by incorporating dynamic memory management and minimizes inference latency by employing parallel model loading. Based on PIPELOAD mechanism, we present Hermes, a framework optimized for large model inference on edge devices. We evaluate Hermes on Transformer-based models of different sizes. Our experiments illustrate that Hermes achieves up to 4.24 X increase in inference speed and 86.7% lower memory consumption than the state-of-the-art pipeline mechanism for BERT and ViT models, 2.58 X increase in inference speed and 90.3% lower memory consumption for GPT-style models.
arxiv情報
| 著者 | Xueyuan Han,Zinuo Cai,Yichu Zhang,Chongxin Fan,Junhan Liu,Ruhui Ma,Rajkumar Buyya |
| 発行日 | 2024-09-06 12:55:49+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google