Privacy-preserving machine learning with tensor networks


テンソル ネットワークは、局所量子多体システムの低エネルギー状態を効率的に表現するために広く使用されており、従来のネットワークに対して利点をもたらす可能性のある機械学習アーキテクチャとして最近提案されています。
この研究では、テンソル ネットワーク アーキテクチャが、医療記録の処理などのタスクにおいて重要である、プライバシーを保護する機械学習に対して特に有望な特性を備えていることを示します。
まず、フィードフォワード ニューラル ネットワークに存在する新しいプライバシーの脆弱性について説明し、それを合成データセットと現実世界のデータセットで示します。
行列積の状態が医療記録のデータセットでトレーニングされる実際の例で分析結果を補足します。これにより、攻撃者がモデルのパラメーターからトレーニング データセットに関する情報を抽出する確率が大幅に低下することがわかります。
テンソル ネットワーク アーキテクチャのトレーニングに関する専門知識が増大していることを考慮すると、これらの結果は、予測の精度と処理される情報のプライバシーの確保の間で選択を迫られる必要がない可能性があることを示唆しています。


Tensor networks, widely used for providing efficient representations of low-energy states of local quantum many-body systems, have been recently proposed as machine learning architectures which could present advantages with respect to traditional ones. In this work we show that tensor network architectures have especially prospective properties for privacy-preserving machine learning, which is important in tasks such as the processing of medical records. First, we describe a new privacy vulnerability that is present in feedforward neural networks, illustrating it in synthetic and real-world datasets. Then, we develop well-defined conditions to guarantee robustness to such vulnerability, which involve the characterization of models equivalent under gauge symmetry. We rigorously prove that such conditions are satisfied by tensor-network architectures. In doing so, we define a novel canonical form for matrix product states, which has a high degree of regularity and fixes the residual gauge that is left in the canonical forms based on singular value decompositions. We supplement the analytical findings with practical examples where matrix product states are trained on datasets of medical records, which show large reductions on the probability of an attacker extracting information about the training dataset from the model’s parameters. Given the growing expertise in training tensor-network architectures, these results imply that one may not have to be forced to make a choice between accuracy in prediction and ensuring the privacy of the information processed.


著者 Alejandro Pozas-Kerstjens,Senaida Hernández-Santana,José Ramón Pareja Monturiol,Marco Castrillón López,Giannicola Scarpa,Carlos E. González-Guillén,David Pérez-García
発行日 2023-07-14 13:04:42+00:00
