HEAM : Hashed Embedding Acceleration using Processing-In-Memory

要約

今日のデータセンターでは、パーソナライズされたレコメンデーション システムは、特に埋め込み操作を実行する場合に大容量のメモリと高帯域幅の必要性などの課題に直面しています。
これまでのアプローチでは、DIMM ベースのニアメモリ処理技術に依存するか、3D スタック DRAM を導入してメモリ制約の問題に対処し、メモリ帯域幅を拡張していました。
しかし、これらのソリューションは、パーソナライズされたレコメンデーション システムの規模の拡大に対処するには不十分です。
レコメンデーション モデルのサイズは数十テラバイトを超えるまでに成長しており、従来の単一ノードの推論サーバーで効率的に実行することが困難になっています。
埋め込みテーブルの容量を削減するためにさまざまなアルゴリズム手法が提案されていますが、多くの場合、メモリ アクセスが増加したり、メモリ リソースの非効率な使用が生じたりします。
この論文では、3D スタック DRAM と DIMM を統合するヘテロジニアス メモリ アーキテクチャである HEAM を紹介し、合成埋め込みを利用した推奨システムを高速化します。これは、埋め込みテーブルのサイズを削減することを目的とした技術です。
このアーキテクチャは、従来の DIMM、ベース ダイ レベルの Processing-In-Memory (PIM) を備えた 3D スタック DRAM、およびルックアップ テーブルを組み込んだバンク グループ レベルの PIM で構成される 3 層メモリ階層で構成されています。
この設定は、時間的局所性や埋め込みテーブルの容量など、合成埋め込みの固有の側面に対応するように特別に設計されています。
この設計により、バンク アクセスが効果的に削減され、アクセス効率が向上し、全体のスループットが向上します。その結果、ベースラインと比較して 6.3 倍の速度向上と 58.9% のエネルギー節約が実現します。

要約(オリジナル)

In today’s data centers, personalized recommendation systems face challenges such as the need for large memory capacity and high bandwidth, especially when performing embedding operations. Previous approaches have relied on DIMM-based near-memory processing techniques or introduced 3D-stacked DRAM to address memory-bound issues and expand memory bandwidth. However, these solutions fall short when dealing with the expanding size of personalized recommendation systems. Recommendation models have grown to sizes exceeding tens of terabytes, making them challenging to run efficiently on traditional single-node inference servers. Although various algorithmic methods have been proposed to reduce embedding table capacity, they often result in increased memory access or inefficient utilization of memory resources. This paper introduces HEAM, a heterogeneous memory architecture that integrates 3D-stacked DRAM with DIMM to accelerate recommendation systems in which compositional embedding is utilized-a technique aimed at reducing the size of embedding tables. The architecture is organized into a three-tier memory hierarchy consisting of conventional DIMM, 3D-stacked DRAM with a base die-level Processing-In-Memory (PIM), and a bank group-level PIM incorporating a Look-Up-Table. This setup is specifically designed to accommodate the unique aspects of compositional embedding, such as temporal locality and embedding table capacity. This design effectively reduces bank access, improves access efficiency, and enhances overall throughput, resulting in a 6.3 times speedup and 58.9% energy savings compared to the baseline.

arxiv情報

著者 Youngsuk Kim,Hyuk-Jae Lee,Chae Eun Rhee
発行日 2024-02-06 14:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR パーマリンク