要約
このレポートでは、大規模言語モデル (LLM) 推論タスクに対して NVIDIA Hopper GPU で信頼された実行環境 (TEE) を有効にした場合のパフォーマンスへの影響を評価します。
PCIe を介した CPU-GPU データ転送によって引き起こされるボトルネックに特に焦点を当てて、さまざまな LLM およびトークン長にわたって TEE モードによって導入されるオーバーヘッドをベンチマークします。
私たちの結果は、GPU 内の計算オーバーヘッドは最小限に抑えられていますが、全体的なパフォーマンスの低下は主にデータ転送に起因していることを示しています。
一般的な LLM クエリの大部分では、オーバーヘッドは 7% 未満に留まり、大規模なモデルや長いシーケンスではオーバーヘッドがほぼゼロになります。
要約(オリジナル)
This report evaluates the performance impact of enabling Trusted Execution Environments (TEE) on NVIDIA Hopper GPUs for large language model (LLM) inference tasks. We benchmark the overhead introduced by TEE mode across various LLMs and token lengths, with a particular focus on the bottleneck caused by CPU-GPU data transfers via PCIe. Our results indicate that while there is minimal computational overhead within the GPU, the overall performance penalty is primarily attributable to data transfer. For the majority of typical LLM queries, the overhead remains below 7%, with larger models and longer sequences experiencing nearly zero overhead.
arxiv情報
著者 | Jianwei Zhu,Hang Yin,Peng Deng,Aline Almeida,Shunfan Zhou |
発行日 | 2024-11-05 16:57:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google