要約
DLRM は、さまざまな業界アプリケーションで広く採用されている最先端のレコメンデーション システム モデルです。
ただし、DLRM モデルのサイズが大きいため、効率的にトレーニングするには複数のデバイス/GPU を使用する必要があります。
このプロセスの大きなボトルネックは、すべてのデバイスから埋め込みデータを収集するために必要な、時間のかかる全対全通信です。
これを軽減するために、エラー境界非可逆圧縮を採用して通信データ サイズを削減し、DLRM トレーニングを高速化する方法を導入します。
私たちは、高い圧縮率を達成するために、埋め込みデータ特徴の詳細な分析に基づいた、新しいエラー限界非可逆圧縮アルゴリズムを開発します。
さらに、圧縮の利点と精度への潜在的な影響のバランスをとるために、テーブル単位と反復単位の両方の側面にわたる誤差範囲調整のためのデュアルレベルの適応戦略を導入します。
GPU 上の PyTorch テンソル用にコンプレッサーをさらに最適化し、圧縮オーバーヘッドを最小限に抑えます。
評価の結果、私たちの方法では、精度への影響を最小限に抑えながら、トレーニングの速度が 1.38$\times$ 向上することがわかりました。
要約(オリジナル)
DLRM is a state-of-the-art recommendation system model that has gained widespread adoption across various industry applications. The large size of DLRM models, however, necessitates the use of multiple devices/GPUs for efficient training. A significant bottleneck in this process is the time-consuming all-to-all communication required to collect embedding data from all devices. To mitigate this, we introduce a method that employs error-bounded lossy compression to reduce the communication data size and accelerate DLRM training. We develop a novel error-bounded lossy compression algorithm, informed by an in-depth analysis of embedding data features, to achieve high compression ratios. Moreover, we introduce a dual-level adaptive strategy for error-bound adjustment, spanning both table-wise and iteration-wise aspects, to balance the compression benefits with the potential impacts on accuracy. We further optimize our compressor for PyTorch tensors on GPUs, minimizing compression overhead. Evaluation shows that our method achieves a 1.38$\times$ training speedup with a minimal accuracy impact.
arxiv情報
著者 | Hao Feng,Boyuan Zhang,Fanjiang Ye,Min Si,Ching-Hsiang Chu,Jiannan Tian,Chunxing Yin,Summer Deng,Yuchen Hao,Pavan Balaji,Tong Geng,Dingwen Tao |
発行日 | 2024-07-11 15:31:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google