Pushing the Performance Envelope of DNN-based Recommendation Systems Inference on GPUs

要約

パーソナライズされたレコメンデーションは、インターネット上のユビキタスなアプリケーションであり、多くの業界やハイパースケーラーは、パーソナライズのニーズ (広告配信や映画の提案など) にディープラーニング レコメンデーション モデル (DLRM) を幅広く活用しています。
モデルとデータセットのサイズが増大し、計算とメモリの要件が増大するにつれて、DLRM 推論の実行には GPU がますます好まれています。
ただし、許容可能なレイテンシを満たしながら新しい DLRM を提供することは引き続き困難であり、従来のデプロイメントでは GPU の消費がますます増大し、その結果、推論サービスのコストが増加します。
このペーパーでは、エンベディング段階が GPU 推論パイプラインの主要なボトルネックであり続け、エンベディングのみで 3.2 倍のパフォーマンス低下につながることを示します。
問題を徹底的に把握するために、マイクロアーキテクチャの詳細な特性評価を実施し、標準の組み込みカーネルの占有率が低いことを強調します。
コンパイラーの直接最適化を活用することで、最適な占有率を実現し、パフォーマンスを最大 53% 向上させます。
しかし、長いメモリ レイテンシのストールは依然として存在します。
この課題に取り組むために、レイテンシを隠して短縮するのに役立つ、特殊なプラグ アンド プレイ ベースのソフトウェア プリフェッチと L2 ピニング技術を提案します。
さらに、相互に補完し合うため、それらを組み合わせることを提案します。
大規模なモデルとデータセットを備えた A100 GPU を使用した実験評価では、提案された手法により、埋め込み段階でパフォーマンスが最大 103%、DLRM 推論パイプライン全体で最大 77% 向上することが示されています。

要約(オリジナル)

Personalized recommendation is a ubiquitous application on the internet, with many industries and hyperscalers extensively leveraging Deep Learning Recommendation Models (DLRMs) for their personalization needs (like ad serving or movie suggestions). With growing model and dataset sizes pushing computation and memory requirements, GPUs are being increasingly preferred for executing DLRM inference. However, serving newer DLRMs, while meeting acceptable latencies, continues to remain challenging, making traditional deployments increasingly more GPU-hungry, resulting in higher inference serving costs. In this paper, we show that the embedding stage continues to be the primary bottleneck in the GPU inference pipeline, leading up to a 3.2x embedding-only performance slowdown. To thoroughly grasp the problem, we conduct a detailed microarchitecture characterization and highlight the presence of low occupancy in the standard embedding kernels. By leveraging direct compiler optimizations, we achieve optimal occupancy, pushing the performance by up to 53%. Yet, long memory latency stalls continue to exist. To tackle this challenge, we propose specialized plug-and-play-based software prefetching and L2 pinning techniques, which help in hiding and decreasing the latencies. Further, we propose combining them, as they complement each other. Experimental evaluations using A100 GPUs with large models and datasets show that our proposed techniques improve performance by up to 103% for the embedding stage, and up to 77% for the overall DLRM inference pipeline.

arxiv情報

著者 Rishabh Jain,Vivek M. Bhasi,Adwait Jog,Anand Sivasubramaniam,Mahmut T. Kandemir,Chita R. Das
発行日 2024-10-29 17:13:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.DB, cs.IR, cs.LG, cs.PF, cs.SE パーマリンク