Homomorphic WiSARDs: Efficient Weightless Neural Network training over encrypted data

要約

機械学習アルゴリズムの広範な適用は、データ プライバシー研究コミュニティにとって関心が高まっており、多くの研究者がそのためのプライバシー保護技術の開発を模索してきました。
既存のアプローチの中でも、ML アルゴリズムの準同型評価は、暗号化されたデータに対して直接操作を実行することで際立っており、機密性の強力な保証を可能にします。
推論アルゴリズムの準同型評価は、比較的深い畳み込みニューラル ネットワーク (CNN) に対しても実用的です。
しかし、トレーニングは依然として大きな課題であり、現在のソリューションは軽量アルゴリズムに頼ることが多く、画像認識などのより複雑な問題の解決には適さない可能性があります。
この研究では、暗号化されたデータのトレーニングと推論のための Wilkie、Stonham、Aleksander の認識デバイス (WiSARD) とそれに続く無重力ニューラル ネットワーク (WNN) の準同型評価を導入しています。
CNN と比較して、WNN は精度の低下が比較的小さいものの、より優れたパフォーマンスを提供します。
私たちは、独立した関心を持つことができるいくつかの構成要素を含む、そのための完全なフレームワークを開発します。
私たちのフレームワークは、わずか 3.5 分の暗号化トレーニング (マルチスレッド) 後に MNIST データセットで 91.7% の精度を達成し、3.5 時間で 93.8% に達します。
HAM10000 データセットの場合、わずか 1.5 分で 67.9% の精度を達成し、1 時間後には 69.9% に上昇します。
CNN トレーニングの HE 評価に関する最新技術である Glyph (Lou et al., NeurIPS 2020) と比較すると、これらの結果は最大 5.4% の精度損失で最大 1200 倍の高速化を示しています。
HAM10000 では、Glyph よりも 60 倍高速でありながら、0.65% の精度向上も達成しました。
小規模な暗号化トレーニング向けのソリューションも提供します。
200MB 未満のメモリを使用するデスクトップ マシン上のシングル スレッドで、1000 を超える MNIST 画像を 12 分でトレーニングするか、ウィスコンシン乳がんデータセット全体をわずか 11 秒でトレーニングします。

要約(オリジナル)

The widespread application of machine learning algorithms is a matter of increasing concern for the data privacy research community, and many have sought to develop privacy-preserving techniques for it. Among existing approaches, the homomorphic evaluation of ML algorithms stands out by performing operations directly over encrypted data, enabling strong guarantees of confidentiality. The homomorphic evaluation of inference algorithms is practical even for relatively deep Convolution Neural Networks (CNNs). However, training is still a major challenge, with current solutions often resorting to lightweight algorithms that can be unfit for solving more complex problems, such as image recognition. This work introduces the homomorphic evaluation of Wilkie, Stonham, and Aleksander’s Recognition Device (WiSARD) and subsequent Weightless Neural Networks (WNNs) for training and inference on encrypted data. Compared to CNNs, WNNs offer better performance with a relatively small accuracy drop. We develop a complete framework for it, including several building blocks that can be of independent interest. Our framework achieves 91.7% accuracy on the MNIST dataset after only 3.5 minutes of encrypted training (multi-threaded), going up to 93.8% in 3.5 hours. For the HAM10000 dataset, we achieve 67.9% accuracy in just 1.5 minutes, going up to 69.9% after 1 hour. Compared to the state of the art on the HE evaluation of CNN training, Glyph (Lou et al., NeurIPS 2020), these results represent a speedup of up to 1200 times with an accuracy loss of at most 5.4%. For HAM10000, we even achieved a 0.65% accuracy improvement while being 60 times faster than Glyph. We also provide solutions for small-scale encrypted training. In a single thread on a desktop machine using less than 200MB of memory, we train over 1000 MNIST images in 12 minutes or over the entire Wisconsin Breast Cancer dataset in just 11 seconds.

arxiv情報

著者 Leonardo Neumann,Antonio Guimarães,Diego F. Aranha,Edson Borin
発行日 2024-03-29 14:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク