Privacy-Preserving Graph-Based Machine Learning with Fully Homomorphic Encryption for Collaborative Anti-Money Laundering

要約

サイバー犯罪の増加と金融取引のデジタル化により、マネーロンダリングとの闘いはますます複雑になっています。
グラフベースの機械学習技術は、マネーロンダリング対策 (AML) 検出のための有望なツールとして登場し、マネーロンダリング ネットワーク内の複雑な関係を捕捉します。
ただし、AML ソリューションの有効性は金融機関内のデータサイロによって妨げられ、コラボレーションと全体的な有効性が制限されます。
この研究は、共同AML機械学習のための新しいプライバシー保護アプローチを提示し、プライバシーと規制遵守を維持しながら、機関や国境を越えた安全なデータ共有を促進します。
完全準同型暗号化 (FHE) を利用して、暗号化されたデータに対して計算が直接実行され、財務データの機密性が保証されます。
特に、FHE over the Torus (TFHE) は、Zama Concrete ML を使用したグラフベースの機械学習と統合されました。
この研究は、2 つの重要なプライバシー保護パイプラインに貢献します。
まず、プライバシーを保護するグラフ ニューラル ネットワーク (GNN) パイプラインの開発が検討されました。
GNN を FHE 互換にするために、量子化や枝刈りなどの最適化手法が使用されました。
2 番目に、グラフ機能プリプロセッサ (GFP) を活用したプライバシー保護グラフベースの XGBoost パイプラインの開発に成功しました。
実験では、暗号化されていない推論設定と FHE 暗号化された推論設定の両方で、バランスの取れた AML データセットで XGBoost モデルが常に 99% 以上の精度、F1 スコア、精度、再現率を達成するという強力な予測パフォーマンスを実証しました。
不均衡なデータセットでは、グラフベースの特徴を組み込むことで F1 スコアが 8% 改善されました。
この調査では、プライバシーと計算効率の間のトレードオフのバランスをとる必要性が強調されています。

要約(オリジナル)

Combating money laundering has become increasingly complex with the rise of cybercrime and digitalization of financial transactions. Graph-based machine learning techniques have emerged as promising tools for Anti-Money Laundering (AML) detection, capturing intricate relationships within money laundering networks. However, the effectiveness of AML solutions is hindered by data silos within financial institutions, limiting collaboration and overall efficacy. This research presents a novel privacy-preserving approach for collaborative AML machine learning, facilitating secure data sharing across institutions and borders while preserving privacy and regulatory compliance. Leveraging Fully Homomorphic Encryption (FHE), computations are directly performed on encrypted data, ensuring the confidentiality of financial data. Notably, FHE over the Torus (TFHE) was integrated with graph-based machine learning using Zama Concrete ML. The research contributes two key privacy-preserving pipelines. First, the development of a privacy-preserving Graph Neural Network (GNN) pipeline was explored. Optimization techniques like quantization and pruning were used to render the GNN FHE-compatible. Second, a privacy-preserving graph-based XGBoost pipeline leveraging Graph Feature Preprocessor (GFP) was successfully developed. Experiments demonstrated strong predictive performance, with the XGBoost model consistently achieving over 99% accuracy, F1-score, precision, and recall on the balanced AML dataset in both unencrypted and FHE-encrypted inference settings. On the imbalanced dataset, the incorporation of graph-based features improved the F1-score by 8%. The research highlights the need to balance the trade-off between privacy and computational efficiency.

arxiv情報

著者 Fabrianne Effendi,Anupam Chattopadhyay
発行日 2024-11-11 16:47:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク