Leveraging ASIC AI Chips for Homomorphic Encryption

要約

クラウドベースのサービスにより、機密性の高い顧客データのアウトソーシングがますます一般的になってきています。
準同型暗号化 (HE) は強力なプライバシー保証を提供しますが、平文での計算よりも大幅に多くのリソースが必要となり、多くの場合、結果を取得するまでに許容できないほど大きな遅延が発生します。
HE アクセラレータは、この遅延の問題を軽減するために登場しましたが、ASIC のコストが高くなります。
この論文では、HE プリミティブを AI オペレーターに変換し、クラウドにすでに広く展開されている TPU などの既存の ASIC AI アクセラレータ上で高速化できることを示します。
このようなアクセラレータを HE に適応させるには、(1) 剰余乗算のサポート、(2) ソフトウェアでの高精度演算、および (3) マトリックス エンジンでの効率的なマッピングが必要です。
CROSS コンパイラを紹介します。(1) Barrett リダクションを採用し、乗算器と加算器を使用したモジュラー リダクション サポートを提供します。(2) 高精度の乗算を低精度の行列ベクトル乗算に変換する Basis Aligned Transformation (BAT)、(3) 行列
Aligned Transformation (MAT) は、ベクトル化されたモジュラー演算を変換して行列乗算に変換し、2D 空間行列エンジンで効率的に処理できます。
Google TPUv4 での CROSS の評価では、メニーコア CPU および V100 での以前の作業と比較して、最大 161 倍および 5 倍の速度向上という大幅なパフォーマンスの向上が実証されました。
カーネルレベルのコードは、https://github.com/google/jaxite.git でオープンソース化されています。

要約(オリジナル)

Cloud-based services are making the outsourcing of sensitive client data increasingly common. Although homomorphic encryption (HE) offers strong privacy guarantee, it requires substantially more resources than computing on plaintext, often leading to unacceptably large latencies in getting the results. HE accelerators have emerged to mitigate this latency issue, but with the high cost of ASICs. In this paper we show that HE primitives can be converted to AI operators and accelerated on existing ASIC AI accelerators, like TPUs, which are already widely deployed in the cloud. Adapting such accelerators for HE requires (1) supporting modular multiplication, (2) high-precision arithmetic in software, and (3) efficient mapping on matrix engines. We introduce the CROSS compiler (1) to adopt Barrett reduction to provide modular reduction support using multiplier and adder, (2) Basis Aligned Transformation (BAT) to convert high-precision multiplication as low-precision matrix-vector multiplication, (3) Matrix Aligned Transformation (MAT) to covert vectorized modular operation with reduction into matrix multiplication that can be efficiently processed on 2D spatial matrix engine. Our evaluation of CROSS on a Google TPUv4 demonstrates significant performance improvements, with up to 161x and 5x speedup compared to the previous work on many-core CPUs and V100. The kernel-level codes are open-sourced at https://github.com/google/jaxite.git.

arxiv情報

著者 Jianming Tong,Tianhao Huang,Leo de Castro,Anirudh Itagi,Jingtian Dang,Anupam Golder,Asra Ali,Jevin Jiang,Arvind,G. Edward Suh,Tushar Krishna
発行日 2025-01-13 04:08:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.CL, cs.CR, cs.PL パーマリンク